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版 权 信息 


《深入 Python 3》 AANA T Python 3 及 其 与 Pyter 2 的 区 别 。 相 对 《深入 Python) m 
&, € 20% 的 内 容 进行 了 修订 ，80% 的 内 容 是 全 新 的 。 这 本 书 现在 已 经 完成 了 ， 但 随时 欢 
E. 


本 书 遵循 Creative Commons Attribution Share-Alike 协议 自由 授权 。 您 可 选择 下 载 html 或 是 
pdf 版 本 。 尤 伯 爱 好 者 还 可 从 水 银 仓 库 (Mercurial repository) 进行 克隆 : 


youQlocalhost:-$ hg clone http://hg.diveintopythonS3.org/ diveintopython3 


€ 2001-9 Mark Pilgrim 


Chapter -1 《深入 Python 3》 中 有 何 新 内 容 


" 这 不 正 是 我 们 进来 的 地 方 吗 ? "一 《 迷 墙 》 


又 叫做 “the minus level" 


你 读 过 原版 的 “深入 Python" 并 可 能 甚至 买 了 纸 版 的 。 (谢谢 ! ) 你 差不多 已 经 了 解 Python 2 
了 。 你 准 各 好 了 投入 到 Python 3 里 面 。... 如 果 所 有 这 些 都 成 立 ， 继 续 读 。 (如 果 没 有 一 个 是 
成 立 的 ， 你 最 好 从 头 开始 。 


Python 3 提供 了 一 个 脚本 叫做 2to3 。 学 习 它 。 喜 欢 它 。 使 用 它 。 用 2to3 移植 代码 到 
Python 3 是 一 个 有 关 2to3 工具 能 够 自动 整理 的 所 有 东西 的 参考 手册 。 很 多 这 些 东 西 都 是 语 
法 的 变更 ， 因 此 了 解 Python 3 里 面 许多 的 语法 变更 是 一 个 好 的 起 点 。 ( print 现在 是 一 个 画 
数 ， x 不 能 使 用 ， 等 等 。) 


案例 分 析 : 移植 chardet 到 Python 3 记录 了 我 努力 (最 终 成 功 ) 把 一 个 不 平常 的 库 从 
Python 2 移植 到 Python 3 的 过 程 。 它 也 许 能 帮助 你 ; 也 许 不 能 。 这 里 存在 一 个 相当 陡 的 学 习 
曲线 ， 由 于 你 首先 需要 稍微 理解 一 下 这 个 库 ， 那 样 你 才 可 以 理解 为 什么 它 会 损坏 以 及 我 如 何 
修复 它 的 。 围 绕 字符 串 有 很 多 损坏 的 地 方 。 说 到 这 个 .… 


字符 串 。 吃 。 从 哪儿 开始 呢 。Python 2 有 “strings” 和 “Unicode strings", Python 3 有 “bytes” 
和 “strings"”。 也 就 是 说 ， 现 在 所 有 字符 串 都 是 Unicode 的 字符 串 ， 那 么 如 果 你 想 处 理 一 个 字 
节 包 ， 你 可 以 使 用 新 的 bytes 类 型 。Python 3 从 不 会 在 strings 和 bytes 之 间 进 行 隐 式 的 转 
换 ， 因 此 在 任何 时 候 如 果 你 不 确信 你 拥有 的 是 什么 类 型 ， 你 的 代码 几乎 无 疑 的 将 会 出 问题 。 
阅读 Strings 的 章节 了 解 更 多 细节 信息 。 


贯穿 整个 这 本 书 ，Bytes 和 strings 的 对 比 会 一 次 又 一 次 的 出 现 。 


e 在 文件 这 章 ， 你 将 了 解 到 通过 "二进制 "模式 和 “文本 "模式 读 取 文 件 的 区 别 ; 在 文本 模式 下 
读 取 (AMBA!) 文件 需要 提供 一 个 _ encoding 参数 。 一 些 文本 文件 方法 按照 字符 来 计 
数 ， 而 另 一 些 方法 按照 字 节 计数 。 如 果 你 的 代码 采取 一 个 字符 等 于 一 个 字 节 的 方式 ， 那 
么 在 多 字 节 表示 一 个 字符 的 情况 下 将 会 出 问题 。 

e 在 HTTP Web 服务 这 章 ， httplib2 模块 通过 HTTP 获取 头 信息 和 数据 。HTTP 头 信息 

返回 的 是 字符 串 ， 而 HTTP 正文 则 返回 的 是 字 节 。 

在 序列 化 Python 对 象 这 章 ， 你 将 了 解 到 为 什么 Python 3 里 面 的 pickle 模块 定义 了 一 

个 和 Python 2 向 后 不 兼容 的 新 的 数据 类 型 。 (提示 : 这 就 是 因为 字 节 和 字符 串 的 原 

因 。) 同样 JSON 也 根本 不 支持 字 节 类 型 。 我 将 向 你 展示 如 何 解决 这 个 问题 。 

在 案例 分 析 : 移植 chardet 到 Python 3 这 章 ， 到 处 都 是 一 大 堆 一 大 堆 关 于 字 节 和 字符 串 

的 东西 。 


即使 你 不 关心 Unicode (但 实际 上 你 会 的 ) ， 你 也 会 想 阅 读 一 下 Python 3 里 面 的 字符 串 格 
式 ， 这 和 Python 2 里 面 的 完全 不 一 样 。 


迭代 在 Python 3 里 面 无 处 不 在 ， 比 起 五 年 之 前 我 写 “ 深 入 Python” 的 时 候 ， 我 现在 能 更 好 的 理 
解 它们 。 你 也 需要 理解 他 们 ， 因 为 过 去 经 常 在 Python 2 里 面 返 回 列 表 的 很 多 函数 ， 在 Python 
3 里 面料 返回 迭代 。 至 少 ， 你 应 该 阅读 一 下 迭代 章节 的 下 半 部 分 和 高 级 迭代 章节 的 下 半 部 分 。 


根据 大 家 的 要 求 ， 我 已 经 添加 了 一 个 关于 特殊 方法 名 称 的 附录 ， 有 点 像 Python 文档 的 “数据 
模型 "章节 但 是 包含 更 多 的 内 容 。 


当 我 在 撰写 “深入 Python” 的 时 候 ， 所 有 可 用 的 XML 库 都 很 糟糕 。 接 着 Fredrik Lundh 编写 了 
非常 优秀 的 ElementTree, Python 的 专家 们 聪明 的 把 ElementTree 变 成 了 标准 库 的 一 部 分 ， 
然后 现在 它 构成 了 我 的 新 的 XML 章节 的 基础 。 解 析 XML 的 那些 老 的 方式 仍然 可 用 ， 但 是 你 
应 该 避免 使 用 它们 ， 因 为 他 们 很 糟糕 ! 


除 此 之 外 ， 还 有 个 关于 Python 的 新 东西 一 不 是 语言 上 的 ， 而 是 社区 中 的 一 像 Python 包装 
索引 (PyPl) 的 出 现 。Python 提供 了 实用 工具 类 用 来 将 你 的 代码 打包 成 标准 格式 ， 并 分 发 那些 
包 到 PyPI rh, iik 打包 Python 库 了 解 详细 信息 。 


Chapter 0 ZzX Python 


" Tempora mutantur nos et mutamur in illis. (时 光 流 转 ， 吾 等 亦 随 之 而 变 。) "一 古 罗 
马 谤 语 

深入 

/ 木 


欢迎 来 到 Python 3 的 世界 。 让 我 们 继续 深入 。 本 章 中 ， 您 将 安装 适合 自己 的 Python 3 版 
本 。 


何 种 版 本 的 Python 适合 您 ? 


对 Python 要 做 的 第 一 件 事情 是 安装 。 还 是 说 已 经 装 了 ? 


如 果 使 用 的 是 托管 服务 器 上 的 帐号 ，1SP [互联 网 供应 商 ] 可 能 已 经 安装 了 Python 3 。 如 果 
是 在 家 运行 的 Linux ， 也 可 能 已 经 安装 了 Python 3 。 多 数 流行 的 GNU/Linux 发 行 包 在 缺 省 安 
装 中 都 包括 了 Python 2 ; 为 数 不 多 但 却 不 断 增 加 的 发 行 包 中 同时 也 包括 了 Python 3 。Mac 
OS X 包括 了 命令 行 版 本 的 Python 2， 但 直至 本 书写 作 之 时 止 ， 其 尚未 提供 Python 3。 
Microsoft Windows 未 安装 任何 版 本 之 Python 。 但 是 不 要 绝望 ! 无 论 是 何 种 操作 系统 ， 均 可 
通过 安装 Python 来 开启 通 向 光明 的 道路 。 


在 Linux 或 Mac OS X 系统 上 检测 Python 3 的 最 简单 办 法 是 进入 命令 行 。 在 Linux 中 ， 可 从 
Application [点 用 程序 ] 菜单 找到 叫 一 个 做 Terminal [终端 ”的 程序 。 ( 它 也 有 可 能 位 于 像 
Accessories [附件 ] 或 System [系统 ] 这 样 的 子 菜单 内 。) 在 MacOSX 中 , 在 
/Application/Utilities/ 文件 夹 中 有 一 个 叫做 Terminal.app 的 应 用 程序 。 


见 到 命 命 行 提 示 符 之 后 ， 只 需 输 入 pythos 〔 全 部 字母 小 写 、 无 空格 ) ， 并 观察 接 下 来 发 生 
的 事情 。 我 家 中 的 Linux 系统 已 经 安装 了 Python 3 ， 运 行 该 命令 将 把 我 带 入 Python 交互 式 
shell 中。 


markQatlantis:-$ python3 

Python 3.0.1+ (r301:69556, Apr 15 2009, 17:25:52) 

[GCC 4.3.3] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 
- 


(输入 exit() 并 按 下 mes 可 退出 Python 32 E X shell, ) 


我 选择 的 虚拟 主机 服务 商 也 运行 Linux 并 提供 命令 行 访问 ， 但 我 的 服务 器 未 安装 Python 3 
o OE!) 


markQmanganese:-$ python3 
bash: python3: command not found 


因此 无 论 在 计算 机 上 已 安装 了 哪个 版 本 ， 让 我 们 回 到 本 节 开 始 时 提 到 的 问题 :“ 哪 种 Python 
版 本 适合 你 ? "， 


[阅读 关于 Windows 的 指导 ， 或 者 跳 到 在 Mac OS X 上 安装 、 在 Ubuntu Linux 上 安装 或 
在 其 它 平台 上 安装 。] 


在 Microsoft Windows 上 安装 


当前 Windows 有 两 种 架构 : 32 位 和 64 位。 当然， 还 有 很 多 不 同 的 Windows 版 本 一 XP. 
Vista, Windows 7 — 而 Python 可 在 所 有 这 些 版 本 上 运行 。The more important distinction 
is 32-bit v. 64-bit. 如 果 不 知道 目前 正在 运行 何 种 架构 ， 那 么 多 半 是 32 位 的 。 


访问 python.org/download/ 并 下 载 与 计算 机 架构 对 应 的 Python 3 Windows 安装 程序 。 面 对 
的 选择 可 能 包括 下 面 这 些 : 


e Python 3.1 Windows 安装 程序 (Windows 二 进 制 一 不 包括 源码 ) 
e Python 3.1 Windows AMD64 安装 程序 (Windows AMD64 二 进 制 一 不 包括 源码 ) 


未 在 此 处 提供 直接 下 载 链接 是 因为 Python 总 是 在 进行 小 的 更 新 ， 而 我 又 不 想 为 您 错过 更 新 负 
责 。 应 该 总 是 安装 最 新 的 Python 3.x 版 本 ， 除 非 您 有 特别 的 理由 不 这 么 做 。 


Open File - Security Warning 
Do you want to run this file? 
je Mame: python-3.1.msi 
Publisher: Python Software Foundation 


Type: Windows Installer Package 
From: CWincoming 


Always ask before opening this file 


potentially harm your computer. Only run software from publishers 


(y While files from the Internet can be useful, this file type can 
you trust. What's the risk? 





下 载 完 成 后 ， 双 击 该 .msi 文件 。 由 于 正 要 运行 的 是 可 执行 代码 ，Windows 将 弹出 一 个 
安全 警告 。 官 方 Python 安装 程序 由 负责 Python 开发 的 非 僵 利 性 组 织 Python 软件 基金 
会 进行 数字 签名 。 千 万 别 接受 山寨 版 ! 


Rad: Run [运行 ] 按钮 启动 Python 3 安装 程序 。 


13 Python 3.1 Setup 


Select whether to install Python 3.1 for 
all users of this computer. 


2 O Install just for me (not available on Windows Vista) 


puthon 
windows 








安装 程序 将 会 询问 的 第 一 个 问题 是 : 是 为 所 有 用 户 ， 还 是 仅 为 您 自己 安装 Python 3, fA 
省 的 选项 是 “为 所 有 用 户 安装 ”， 如 果 没 有 更 好 理由 选择 其 它 选项 ， 这 是 最 好 的 选择 。 

( 想 要 ”只 为 我 安装 “的 一 个 可 能 原因 是 : 正 往 公司 的 计算 机 上 安装 Python 而 您 的 
Windows 帐号 又 没有 Administrator 权限 。 不 过 ， 您 又 为 啥 未 经 公司 Windows 管理 员 的 
许可 而 安装 Python E? 这 个 问题 上 不 要 给 我 惹 麻烦 ! ) 


点 击 Next [下 一 步 ] 按钮 接受 对 安装 类 型 的 选择 。 
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(& Python 3.1 Setup 


—, 
e 


puthon 
windows 


Select Destination Directory 


Please select a directory for the Python 3.1 files. 


Ek Python31 M 











ÍCAPython3 1À 








Cancel 


接 下 来 ， 安 装 程序 将 会 提示 选择 一 个 目标 目录 。 所 有 Python 3.1.x 版 本 缺 省 的 目标 目录 
是 : ci\python31\ ， 这 对 绝 大 多 数 用 户 都 是 合适 的 ， 除 非 您 有 特别 的 理由 修改 它 。 如 果 
有 单独 的 磁盘 驱动 器 用 于 安装 应 用 程序 ， 可 通过 伐 入 式 控件 找到 它 ， 或 直接 在 下 方 的 文 
本 框 中 输入 该 路 径 名 。 如 果 在 c: £& XE Python SR ; 可 在 其 它 盘 的 任何 目录 下 安 


装 。 


md Next [下 一 步 ] 按钮 接受 对 目标 目录 的 选择 。 
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windows 





Customize Python 3.1 


Select the way you want features to be installed. 
Click on the icons in the tree below to change the 





Register Extensions 
Tcl/Tk 
Documentation 
Utility Scripts 

Test suite 








Python Interpreter and Libraries 


This feature requires 19MB on your hard drive, It 
has 5 of 5 subfeatures selected. The subfeatures 
require 26MB on your hard drive, 


接 下 来 的 页 面 看 着 有 点 复杂 ， 但 其 实 并 不 真 的 复杂 。 和 其 它 安装 程序 一 样 ， 您 可 以 选择 
不 安装 Python 3 每 个 单独 部 件 。 如 果 磁盘 空间 特别 紧张 ， 可 以 将 某 些 部 件 排除 在 外 。 


o 


Register Extensions [注册 扩展 名 ] 人 允许 通过 双击 Python 脚本 ( .py files) 来 运 
行 它们 。 建 议 选 上 ， 但 不 是 必需 的 。 《该 选项 不 占用 任何 磁 意 空间 ， 因 此 排除 它 没 
有 任何 意义 。) 

Tcl/Tk 是 Python Shell 使 用 的 图 形 化 类 库 ， 您 将 在 整 本 书 都 用 到 它 。 强 烈 建议 保留 
该 选项 。 

Documentation [文档 ] 安装 的 帮助 文件 包括 大 量 来 自 docs.python.org 信息 。 

如 果 使 用 拨号 上 网 或 者 互联 网 访问 受 限 的 话 ， 建 议 保留 。 

Utility Scripts [实用 脚本 ] 包括 本 书 稍 后 将 学 到 的 2tos.py 脚本 。 如 果 想 学 习 如 
何 将 现 有 Python 2 代码 移植 到 Python 3 ， 这 是 必需 的 部 件 。 若 无 现 有 的 Python 2 
代码 ， 可 略 过 该 选项 。 

Test Suite [测试 套件 ] 是 用 于 测试 Python 解释 器 的 脚本 集合 。 本 书 中 将 不 会 用 
到 ， 而 且 我 在 用 Python 编程 的 过 程 中 也 从 未 用 到 。 完 全 是 可 选 的 。 


Dive Into Python3 


í& Python 3.1 Setup 


Disk Space Requirements 
The disk space required for the installation of the selected features. 


The highlighted volurnes (if any) do not have enough disk space available for 
the currently selected features. You can either remove some files from the 
highlighted volumes, or choose to install less features onto local drive(s), or 
select different destination drive(s). 


Volume Disk Size Available Required Difference 
leii 93GB 62GB 73MB 62GB 






































5. 
如 果 不 确 定 有 多 少 磁盘 空间 ， 点 击 Disk Usage [磁盘 使 用 情况 ] 按钮 。 安 装 程序 将 列 出 所 有 
驱动 器 盘 符 ， 并 计算 每 个 驱动 器 上 有 多 少 可 用 空间 ， 以 及 安装 后 会 剩 下 多 少 空间 。 
点 击 ok [确定 ] “按钮 返回 "Customizing Python [ 自 定义 Python] ”页 面 。 
í& Python 3.1 Setup 
Customize Python 3.1 
Select the way you want features to be installed. 
Click on the icons in the tree below to change the 
way features will be installed. 
Register Extensions 
3 » | Tcl/Tk 
3 v| Documentation 
Utility Scripts 
Test suite 
&g willbe installed on local hard drive 
Ea Entire Feature will be installed on local harc 
Python test | 一 -一 
Entire Feature will be unavailable 
p Uth n . This feature requires 7908KB on your hard drive. 
windows 
Disk Usage 
6. 





ra 
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如 果 决 心 排除 某 选 项 ， 选 择 选项 之 前 的 下 拉 选 项 按钮 并 选中 “Entire feature will be 
unavailable. [整个 功能 将 不 可 用 ] ”选项 。 例 如， 排除 Test Suite [测试 套件 ] 将 节省 高 
达 7908KB 的 磁盘 空间 。 


点 击 Next [下 一 步 ] ”按钮 接受 对 所 选 内 容 的 选择 。 


í& Python 3.1 Setup 


Install Python 3.1 


Please wait while the Installer installs Python 3.1. This may take several 
minutes. 


Status: Copying new files 





| Cancel 





安装 程序 将 把 所 有 必需 的 文件 拷贝 到 所 选择 的 目标 目录 中 。 (该 过 程 非常 快捷 ， 以 至 于 
我 不 得 不 试 了 三 通才 捕捉 到 它 的 屏幕 截图 ! ) 


Dive Into Python3 


ig Python 3.1 Setup 


点 击 Finish [完成 ] 
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Ensh 





按钮 退出 该 安装 程序 。 
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Python Shell 


File Edit Shell Debug Options Windows Help 
Python 3.1 í(r31:73574, Jun 26 2009, 20:21:35) [NSC v.1500 32 bit (Intel)] on vin 
32 


Type "copyright", "credits" or "license()" for more information. 
»» | 





在 开始 菜单 中 ， 将 会 出 现 一 条 名 为 Python 3.1 的 新 菜单 项 。 在 其 中 有 一 个 名 为 IDLE 
的 程序 。 选 择 此 菜单 项 以 运行 交互 式 Python Shell 。 


[ 跳 到 使 用 Python Shell] 


在 MacOS X 上 安装 


所 有 的 现代 麦 金 塔 计算 机 使 用 英特尔 芯片 〈 像 大 多 数 Windows PC 一 样 )。 旧 款 的 荣 果 电脑 使 
用 PowerPC 芯片 。 你 无 须 理解 其 中 区 别 ， 因 为 所 有 莹 果 电 脑 只 有 一 种 Mac Python 安装 程 
序 。 


访问 python.org/download/ 并 下 载 Mac 安装 程序 。 它 可 能 被 叫做 Python 3.1 Mac Installer 
Disk Image 之 类 的 名 字 ， 尽 管 版 本 号 可 能 会 不 同 。 请 确定 下 载 的 是 3.x 版 ， 而 不 是 2.x 版 。 


Dive Into Python3 



















Y DEVICES 
Ld MiniFiona 
© Remote Disc 
Backup — 
a Python 3.1 






了 SHARED 
lil atlantis 


Y PLACES 
A Applications 
fÑ mark 


mi Documents 
E incoming 


Build.txt License.txt Python.mpkg 


Y SEARCH FOR 
(I) Today 
(© Yesterday c 


(©) Past Week 





ReadMe.txt 











1. 
浏览 器 可 以 自动 挂 载 磁盘 映像 ， 并 打开 一 个 Finder 窗口 展示 其 内 容 。 (如 果 没 有 发 生 这 
样 的 情形 ， 则 需要 在 下 载 目 录 中 找到 磁 意 映像， 并 双击 挂 塌 。 它 可 能 被 命名 为 
python-3.1.dmg 之 类 的 名 称 。 ) 磁盘 映像 包括 一 些 文 本 文件 ( Build.txt 、 
License.txt 、  ReadMe.txt ) ， 以 及 实际 的 安装 程序 包 ， Python.mpkg o 
双击 Python.mpkg 安装 程序 包 以 启动 Mac Python 安装 程序 。 
Welcome to the Python Installer 
This package will install MacPython 3.1 for Mac OS X 10.3 or later. 
© Introduction 
MacPython consists of the Python programming language interpreter, 
plus a set of programs to allow easy access to it for Mac users including 
an integrated development environment IDLE plus a set of pre-built 
extension modules that open up specific Macintosh technologies to 
is package will by default not update your shell profile and will 
tall files in /usrlocal. Double-click Update Shell Profile at 
make 3.1 the default Python. 
Co 
2. 
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Dive Into Python3 


安装 程序 的 第 一 页 就 Python 本 身 给 出 了 一 段 简要 描述 ， 然 后 提示 您 参阅 ReadMe.txt X 
件 (您 没有 读 过 该 文件 ， 不 是 吗 ? ) 以 掌握 更 多 细节 。 


点 击 Continue [继续 ] 按钮 进入 下 一 步 。 
3.![Python 安装 程序 : 所 支持 的 架构 、 磁 各 空间 及 可 接受 目标 目录 等 相关 信息 ] 


接 下 来 的 页 面 实际 包含 一 些 重要 信息 : Python 必须 安装 在 Mac OS X 10.3 或 其 后 续 版 
本 之 上 。 如 果 仍 在 使 用 Mac OS X 10.2， 那 就 真 的 需要 升级 一 下 了 。 茶 果 公 司 已 经 不 再 
X (Mac OS X 10.2) 操作 系统 提供 安全 更 新 了 ， 而 且 如 果 鲁 经 上 网 的 话 ， 您 的 计算 机 可 
能 已 经 处 于 危险 之 中 了 。 此 外 ， 您 也 无 法 运行 Python 3 。 


点 击 Continue [继续 ] 按钮 继续 前 进 。 


Software License Agreement 





A. HISTORY OF THE SOFTWARE a 
========================== v 
à Python was created in the early 1990s by Guido van Rossum at 0 

Stichting 
Mathematisch Centrum (CWI, see http//www.cwi.nl) in the 
Netherlands 


as a successor of a language called ABC. Guido remains Python's 
principal author, although it includes many contributions from others. 


In 1995, Guido continued his work on Python at the Corporation for 
National Research Initiatives (CNRI, see http//www.cnri.reston.va.us) 
in Reston, Virginia where he released several versions of the 
software. 


In May 2000, Guido and the Python core development team moved to 
BeOpen.com to form the BeOpen PythonLabs team. In October of the 
same 

year, the PythonLabs team moved to Digital Creations (now Zope 
Corporation, see http //www.zope.com). In 2001, the Python Software 
Foundation (PSF, see http//www.python.org/psf/) was formed, a 
non-profit organization created specifically to own Python-related 
Intellectual Property. Zope Corporation is a sponsoring member of 


tho DCE J 











4|»t 











如 同 所 有 优秀 的 安装 程序 ，Python 安装 程序 列 出 了 软件 许可 协议 。Python 是 开源 软件 ， 
其 许可 协议 由 Open Source Initiative [开源 软件 促进 会 ] 提供 。 历史 上 ，Python 有 过 一 
些 所 有 者 和 赞助 者 ， 每 个 都 在 软件 许可 协议 之 上 留 下 了 痕迹 。 但 最 终结 果 是 : Python 是 
开源 的 ， 可 在 任何 平台 上 为 任何 目的 使 用 它 ， 而 无 需 付 费 或 承担 对 等 义务 。 


再 次 点 击 ”continue [继续 ] “按钮 。 


r3 
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Dive Into Python3 


To continue installing the software you must agree to the terms 
of the software license agreement. 











© Inti 

6 Rei Click Agree to continue or click Disagree to cancel the installation 
£ and quit the Installer. 

6 Lic 


C Disagree ) ER 


Re search Initiatives (CNRI, see Epen cnri. reston. va.us) 
Virginia where he released several versions of the 


















May 2000, Guido and the Python core development team moved to 
eOpen.com to form the BeOpen PythonLabs team. In October of the 
same 

year, the PythonLabs team moved to Digital Creations (now Zope 
Corporation, see http//www.zope.com). In 2001, the Python Software 
Foundation (PSF, see http:/Awww.python.org/psf/) was formed, a 
non-profit organization created specifically to own Python-related 
Intellectual Property. Zope Corporation is a sponsoring member of 


4» 














5. 
根据 苹果 安装 程序 框架 的 习惯 ， 必 须 “agree [同意 ] ”软件 许可 协议 以 完成 安装 。 由 于 
Python 是 开源 的 ， 实 际 上 您 月 Peli 只 是 授予 您 额外 的 权利 ， 而 不 是 剥夺 它们 。 
Bid; Agree [同意 ] ”按钮 以 继续 安装 。 
Standard Install on "MiniFiona" 
Ə Introduction 
This will take 65.2 MB of space on your computer. 
Click Install to perform a standard installation of 
is software on the volume "MiniFiona". 
Change Install Location... 
6. 
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下 


人 必须 将 Python 安装 到 启动 驱动 器 上 ， 但 由 于 安装 程 


序 的 限制 ， 它 并 没有 强迫 这 么 做 。 说 实话 ， 我 从 来 没有 需要 过 修改 安装 位 置 。 


从 该 画面 中 ， 您 还 可 以 自 定 义 安 装 以 剔除 特定 功能 。 如 果 想 这 么 做 ， 点 击 
Customize [ 自 定义 ] 按钮 ; 否则 点 击 Install [安装 ] ”按钮 。 


© 





Pun we Install Python 


Custom Install on "MiniFiona" 











Package Name Action Size 








© Introduction v Install 39.6 MB 
M GUI Applications Install 1.6 MB 
MÍ UNIX command-line tools Install 6.0 KB 
v Python Documentation Install 24.0 MB 





O Shell profile updater 
O Fix system Python 











Space Required: 65.2 MB 27.1GB 





Remaining: 


^ 


. Standard Install - . Go Back $T Install 3 











如 果 选 择 了 自 定义 安装 ， 安 装 程序 将 为 您 提供 下 列 功能 : 


o 


Python Framework [Python 框架 ] . 这 是 Python 的 核心 所 在 ， 由 于 必须 被 安 
装 ， 它 已 经 被 选中 并 处 于 无 法 取消 状态 

GUI Applications [GUI 应 用 程序 ] 包括 IDLE， 即 本 书 通 篇 将 用 到 的 图 形 化 
Python Shell 。 强 烈 建议 保留 该 选项 。 

UNIX command-line tools [UNIX 命令 行 工具 ] 包括 了 pythons 命令 行 应 用 程 
序 。 同 样 强 烈 建议 保留 该 选项 。 

Python Documentation [Python 文档 ] 包含 了 来 自 docs.python.org 的 许多 信 
息 。 如 果 使 用 拨号 上 网 或 者 互联 网 访问 受 限 的 话 ， 建 议 保留 。 

Shell profile updater [Shell 文档 更 新 程序 ] 控制 是 否 更 新 shell 设置 (用 于 
Terminal.app 中 ) 以 确保 此 版 本 的 Python 位 于 Shell 的 搜索 路 径 当 中 。 您 可 能 
需要 修改 该 项 设置 

Fix system Python [修复 系统 Python] 不 应 作 变 更 。 ( 它 告诉 Mac 将 Python 3 
用 作 所 有 脚本 的 缺 省 Python ， 包 括 来 自 葵 果 公司 的 内 置 系统 脚本 。 这 将 会 导致 非常 
糟糕 的 结果 ， 因 为 多 数 这 些 脚 本 是 为 Python 2 编写 的 ， 在 Python 3 环境 中 将 无 法 
正确 运行 。) 


Dive Into Python3 


点 击 Install [安装 ] ”按钮 以 继续 。 









Installer requires that you type your 
password. 










TS MM M——MM Tl 
Name: Mark Pilgrim | 


b Details 
& CoO 







Change Install Location... 












由 于 是 安装 系统 级 的 框架 ， 且 二 进 制 文件 被 安装 至 /usr/1ocal/bin/ 之 中 ， 安 装 程序 将 
会 向 您 询问 管理 员 口 令 。 没 有 管理 员 权 限 是 无 法 安装 Mac Python 的 。 


点 击 ok [确定 ] 按钮 开始 安装 。 
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Dive Into Python3 


Installing Python 


© Introduction 























C Go Back ) ( Continue ) 
9. 
在 安装 所 选 功能 时 ， 安 装 程序 将 会 显示 进度 条 。 
Installation completed successfully 
Ə Introduction 
Install Succeeded 
The software was successfully installed. 
10. 








假定 一 切 顺 利 ， 安 装 程序 将 会 展示 一 个 很 大 的 绿色 对 号 ， 告 知 安装 成 功 完 成 。 
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Dive Into Python3 


点 击 close [关闭 ] 按钮 退出 该 安装 程序 。 





Y DEVICES 
zd MiniFiona 
© Remote Disc 
Ei Backup 


Y SHARED 
lil) atlantis 


Y PLACES 
A Applications 
从 mark 
Di Documents 
LJ incoming 


Extras 


Y SEARCH FOR 


(D Today 
(© Yesterday CMND 
(© Past Week  — 


包 All Images Python Launcher Update Shell 
国 All Movies Profile.command 


[33] All Documents 








11. 


加 入 没有 修改 安装 位 置 ， 您 可 以 在 /Applications 目录 下 的 Python 3.1 目录 中 找到 新 
安装 的 文件 。 最 重要 的 部 分 是 图 形 化 Python Shell IDLE。 


双击 IDLE 以 启动 Python Shell, 
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€ IDLE File Edit Shell Debug Window Help 


e 00 Python Shell 


Python 3.1 (r31:73578, Jun 27 2009, 21:49:46) 


[GCC 4.0.1 (àpple Inc. bvild 5493)] on darwin 
Type "copyright", "credits" or "license()" for more information. 
$> 





12. Ln: 4 Col: 4 


^ 


Python Shell 是 您 探索 Python 过 程 中 花费 时 间 最 多 的 地 方 。 本 书 中 所 有 的 例子 都 假定 您 
能 够 找到 进入 Python Shell 的 方法 。 


[ 跳 到 使 用 Python Shell] 


在 Ubuntu Linux 上 安装 


现代 的 Linux 发 行 版 背后 都 有 着 大 型 的 预 编译 应 用 程序 仓库 ， 随 时 可 用 于 安装 。 具 体 的 细节 


各 发 行 版 均 不 同 。 对 于 Ubuntu Linux 而 言 ， 安 装 Python 3 的 最 简单 途径 是 通过 
Applications 菜单 中 的 增加 出 除 应 用 程序 。 


Dive Into Python3 











Search: 





Es Accessories 
IS Education 
“v Games 


Application 
e AACPIusEnc 

Converts WAV files to the AAC+ format. 
Jf Graphics AbiWord 
€ Internet ~ Compose, edit, and view documents 
X Office ID gg Adobe Reader 8 


e Othér PDF Viewer 


© Programming e AbiWord 


É Sound & Video AbiWord is a full-featured, efficient word processing 
4 System Tools application. It is suitable for a wide variety of word 


Universal Access || Processing tasks, and is extensible with a variety of 
plugins. 9 € 


© Help © Cancel Apply Changes 








* 























在 首次 运行 增加 删除 应 用 程序 时 ， 它 将 展示 一 份 分 成 多 类 的 预选 程序 清单 。 有 的 已 经 
安装 ; 多 数 还 没有 。 因 为 该 仓库 包括 超过 10,000 种 应 用 程序 ， 所 以 可 以 使 用 过 滤器 参看 
仓库 的 不 同 部 分 。 默 认 过 滤器 是 “由 Canonical 维护 的 应 用 程序 ”， 它 是 创建 及 维护 
Ubuntu Linux 的 Canonical 公司 官方 所 支持 的 大 量 应 用 程序 中 的 一 个 小 子 集 。 











Show: |All Open Source applications | $al Search: 
Eş Accessories 


EAE : Application v Popularit 
lisi Education pR ; P 

, AbiWord 

~ Compose, edit, and view documents 

iV Graphics oğ About Myself 

的 Internet Change personal information 


Office Abraca 
s Other HO Simple GTK+ XMMS2 client 


© Programming e AbiWord 


É Sound & Video AbiWord is a full-featured, efficient word processing 
Æ% System Tools application. It is suitable for a wide variety of word 


Universal Access || Processing tasks, and is extensible with a variety of 
plugins. 9 € 


Q Help © Cancel Apply Changes 





“y Games m 











v 




















Python 3 并 非 由 Canonical 维护 ， 因 此 第 一 个 步骤 是 下 拉 过 滤器 菜单 ， 并 选择 "所 有 开源 
应 用 程序 "。 


zz 
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Dive Into Python3 














Show: | All Open Source applications ssa | Search: python 3| 
Ks Accessories 


AER s Application Popularit 
ip Education PP p 
» IDLE (using Python-3.0) 
f Integrated Development Environment for Python (using Pyth... 
8 Graphics gn. Python (v3.0) 
Q9 Internet Python Interpreter (v3.0) 


e Othér Integrated DevelL opment Environment for Python3 


(Programming — | @ IDLE (using Python-3.0) 
É Sound & Video IDLE is an Integrated Development Environment for 


Æ System Tools Python (v3.0). IDLE is written using Tkinter and therefore 
Universal Access || quite platform-independent 9 


IDLE is an Integrated Development Environment for Python (v3.0). 


© Help © Cancel Apply Changes 


“v Games 


























放宽 过 滤器 以 包括 所 有 开源 应 用 程序 之 后 ， 使 用 进 紧 挨 着 过 滤器 菜单 的 "搜索 “ 框 来 搜索 


Python 3 o 











Show: | All Open Source applications E | Search: python3 


Ks Accessories A lication Po ularit 
IŞ Education bouche z 


a IDLE (using Python-3.0) 

'« Games oe Integrated Development Environment for Python (using Pyth... * 
法 Graphics , Python (v3.0) 

e Internet € Python Interpreter (v3.0) 


v 
X Office 4, IDLE 3 | 
e Other Integrated DevelL opment Environment for Python3 c 




















© Programming e Python (v3.0) 
É Sound & Video Version 3.0 of the high-level, interactive object oriented 
Æ System Tools language, includes an extensive class library with lots of 


Universal Access goodies for network programming, system 
administration, sounds and graphics 9 














Q Help © Cancel | Apply Changes | Changes 








3 TE S FEERFRAUJEAARTE HAHAE Python 3 的 那些 内 容 。 您 将 查看 两 个 安装 包 。 第 
一 个 是 Python (v3.0) 。 该 安装 包 包含 了 Python FERAS. 
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Dive Into Python3 





ea |. Add/Remove Applications. eiua 


Show: | All Open Source applications +| Search: python 3 


Ea Accessories = — = 
| lli Education Application Popularit 

| , IDLE (using Python-3.0) 

€ Integrated Development Environment for Python (usi... 

8f Graphics e». Python (v3.0) 

e Internet Python Interpreter (v3.0) 











[4% Games 














«X Office IDLE 3 
e Othér Integrated DevelL opment Environment for Python3 





(© Programming — |&*: IDLE (using Python-3.0) 

i Sound & Video IDLE is an Integrated Development Environment for 

E System Tools Python (v3.0). IDLE is written using Tkinter and therefore 
IB Universal Access quite platform-independent ® 

IDLE is an Integrated Development Environment for Python (v3.0). IE 


Help Cance Apply Changes 
© Hel oc | Apply Ch 



































5. 
第 二 个 要 安装 的 包 就 在 正 上 方 : IDLE (using Python-3.0) 。 这 是 你 在 整 本 书 都 要 用 到 的 
图 形 化 Python Shell 。 
选 好 这 两 个 包 后 ， 点 击 Apply Changes [点 用 修改 ] 按钮 以 继续 。 
人 rS 
« Apply the following changes? 
Please take a final look through the list of applications that 
will be installed or removed. 
Add 
e IDLE (using Python-3.0) 
Integrated Development Environment for Python (using Pytho... 
a Python (v3.0) 
Python Interpreter (v3.0) 
© Cancel  OApply 
6. 








该 软件 包 管理 器 将 会 要 求 您 确认 是 否 要 添加 IDLE (using Python-3.0) 和 Python (v3.0) 


o 


点 击 Apply [应用 ] ”按钮 以 继续 。 


r3 
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(E 2 Downloading Package Files 





Downloading Package Files 





Downloadi g file 4 of 9 | 





Download rate: 288 kB/s - 17s remaining 


b Show for individual files 





€3 Cancel 





T£ M Canonical 互联 网 仓库 下 载 所 需 安装 包 时 ， 软 件 包 管理 器 将 显示 一 个 进度 条 。 





国 2: Applying Changes 
Installing software 


The marked changes are now being applied. This can 
take some time. Please wait. 


Preparing to configure python3-minimal 





b Details 





下 好 安装 包 后 ， 软 件 包 管理 器 将 会 自动 开始 安装 。 





回 E 
w New applications have been installed 





To start a newly installed application double click on it. 





a IDLE (using Python-3.0) 

Integrated Development Environment for Python (using P... 
a Python (v3.0) 

Python Interpreter (v3.0) 

















Add/Remove More Applications || & Close 





如 果 一 切 顺 利 ， 软 件 包 管理 器 将 确认 两 个 安装 包 都 已 安装 成 功 。 从 此 ， 您 可 双击 DLE 局 
动 Python Shell， 或 者 点 击 close [关闭 ] 按钮 退出 软件 包 管 理 器 。 


您 还 可 以 从 Applications [点 用 程序 ] 菜单 ， 然 后 进入 Programming 子 菜单 并 选择 
IDLE， 以 重新 启动 Python Shell, 





B |x| Python Shell 回回 


File Edit Debug Options Windows 




















10. 


Python Shell 是 您 探索 Python 过 程 中 花费 时 间 最 多 的 地 方 。 本 书 中 所 有 的 例子 都 假定 您 
能 够 找到 进入 Python Shell 的 方法 。 


[ 跳 到 使 用 Python Shell] 

在 其 它 平 台 上 安装 

Python 3 还 可 在 一 些 其 它 平 台 上 安装 。 特 别 要 指出 的 是 ， 它 几乎 可 以 在 所 有 的 Linux、 BSD 
和 基于 Solaris 的 发 行 版 纸 上 安 装 。 例 如 ，RedHat Linux 使 用 yum. 软件 包 管理 器 ; FreeBSD 


有 移植 和 软件 包 集 合 ; Solaris 有 pkgadd 和 friends 。 在 网 上 快速 搜索 Python 3 + 您 的 操 
ERR 将 会 告诉 你 是 否 存 在 该 平台 的 Python 以 及 如 何 安 装 。 


使 用 Python Shell 


Python Shell 是 您 探索 Python 语法 ， 通 过 命令 获取 交互 式 帮 助 以 及 调试 段 程 序 的 地 方 。 图 形 
化 Python Shell (名 为 IDLE) 还 包括 了 一 个 不 错 的 文本 编辑 器 ， 它 支持 Python 话 法 着 色 并 
与 Python Shell 进行 了 整 和 。 如 果 还 没有 喜欢 的 文本 编辑 器 ， 不 妨 试用 下 IDLE 。 


重 中 之 重 。Python Shell 本 身 是 一 款 了 不 起 的 互动 环境 。 在 本 书 中 ， 您 将 看 到 下 面 这 样 的 例 


Doo qw d 


这 三 个 尖 插 号 ， &gt;&gt;&gt; ， 表 示 Python Shell 提示 符 。 不 要 输入 该 部 分 。 它 只 是 让 您 知 
道 该 例 要 在 Python Shell 中 运行 。 


1+1 是 您 输入 的 部 分 。 您 可 在 Python Shell 中 输入 任何 有 效 的 Python 表达 式 和 命令 。 别 
AŽ, "ET ERR! 最 粳 糕 的 事情 也 不 过 看 到 一 条 错误 信息 。 命 令 将 立即 得 到 执行 〈 一 旦 您 
按 下 ENTER [ 回 丰 键 ] ) ; 表达 式 的 值 将 立即 得 到 计算 ， 而 Python Shell 将 输出 结果 。 

2 是 该 表达 式 的 计算 结果 。 事 实 上 ， 1 + 1 是 一 个 有 效 的 Python 不 等 式 。 结 果 ， 当 然 ， 是 


2 o 
让 我 们 党 斌 下 另 一 个 例子 . 


>>> print('Hello world!') 
Hello world! 





Raž, TEA ? 但 你 在 Python shell 中 可 完成 的 工作 要 多 得 多 。 如 果 您 被 困 住 了 无 法 
想起 某 个 命令 ， 或 者 无 法 想起 如 何 正 确 给 某 个 函数 传递 参数 一 您 可 寻求 Python Shell 的 交 
互 式 帮 助 。 只 需 输 入 help 并 按 下 Bes 。 





>>> help 
Type help() for interactive help, or help(object) for help about object. 


有 两 种 帮助 模式 。 您 可 以 获得 某 个 对 象 的 帮助 ， 这 样 将 只 打印 出 文档 并 返回 Python Shell 提 
示 符 。 您 也 可 以 输入 help mode， 系 统 将 不 会 计算 Python 表达 式 ， 您 只 需 输入 关键 字 或 命令 
名 称 ， 系 统 将 会 输出 关于 该 命令 它 所 知道 的 内 容 。 


要 进入 交互 帮助 模式 ， 仅 需 输 入 help() 并 按 下 mis. 


»»» help() 
Welcome to Python 3.0!This is the online help utility. 


If this is your first time using Python, you should definitely check out 
the tutorial on the Internet at http://docs.python.org/tutorial/. 


Enter the name of any module, keyword, or topic to get help on writing 
Python programs and using Python modules. To quit this help utility and 
return to the interpreter, just type "quit". 


To get a list of available modules, keywords, or topics, type "modules", 

"keywords", or "topics". Each module also comes with a one-line summary 

of what it does; to list the modules whose summaries contain a given word 
such as "spam", type "modules spam". 

help» 


请 注意 提示 符 是 如 何 从 &gt;&gt;&gt; 改变 为 help&gt; 的 。 该 提示 符 提 醒 您 目前 正 多 于 交互 
式 帮 助 模式 。 现 在 您 可 以 输入 任何 关键 字 、 人 命令、 模块 名 称 、 画 数 名 称 一 几乎 任何 Python 
能 够 理解 的 一 切 一 然后 阅读 其 文档 。 


H 


Help on built-in function print in module builtins: 


print(...) 
print(value, ..., sep-' ', endz'*n', file-sys.stdout) 


Prints the values to a stream, or to sys.stdout by default. 

Optional keyword arguments: 

file: a file-like object (stream); defaults to the current sys.stdout. 
sep: string inserted between values, default a space. 

end: string appended after the last value, default a newline. 


no Python documentation found for 'Papayawhip' 


You are now leaving help and returning to the Python interpreter. 

If you want to ask for help on a particular object directly from the 
interpreter, you can type "help(object)". Executing "help('string')" 
has the same effect as typing a particular string at the help» prompt. 


1， 要 获取 print() KAHH, dmm AA print 然后 按 下 De 。 该 交互 式 帮 助 模式 
将 会 显示 类 似 man 页 面 的 内 容 : 函数 名 称 、 简 要 内 容 、 画 数 的 参数 及 缺 省 值 等 等 。 如 果 
文档 看 起 来 很 难 懂 ， 千 万 别 慌 。 您 将 在 后 面 不 远 的 章节 中 学 到 关于 这 些 概念 的 更 多 内 
容 。 

2， 当 然 ， 交 互 式 帮 助 模式 并 不 知道 一 切 。 如 果 您 所 输入 的 不 是 Python IRD, R, KA 
或 者 其 它 内 建 关 键 字 ， 交 互 式 帮 助 模式 将 只 能 备 竺 虚拟 的 肩膀 。 

3. 要 退出 交互 帮助 模式 ， 仅 需 输 入 quit() 并 按 下 回 车 键 。 

4. 提示 符 将 变 回 &gt;&gt;&gt; 以 提示 您 已 经 离开 交互 帮助 模式 ， 并 返回 到 了 Python Shell 


o 





图 形 化 的 Python Shell 一 一 IDLE, 同 样 带 有 一 个 Python 相关 的 文本 编辑 器 。 


Python 编辑 器 和 集成 开发 环境 


如 果 要 以 Python 编写 程序 ，IDLE 并 不 是 唯一 的 编辑 器 选择 。 尽 管 它 对 于 初学 该 语言 非常 有 
帮助 ， 但 许多 开发 人 员 更 喜欢 其 它 文本 编辑 器 或 集成 开发 环境 。 (IDEs) 在 此 我 不 想 展开 阅 
W, Python 社区 维 扩 了 一 份 Python 相关 编辑 器 的 清单 ， 涵 盖 了 各 种 各 样 支持 平台 和 软件 许 


您 可 能 也 想 查 看 一 下 这 份 Python 相关 IDEs 的 清单 ， 尽 管 其 中 还 只 有 少数 才 支 持 Python 3 。 
其 中 之 一 是 PyDev，Eclipse 的 一 种 插件 ， 它 将 Eclipse 变 成 了 一 种 成 熟 的 Python IDE. 
Eclipse 和 PyDev 都 是 跨 平台 的 开源 软件 。 

在 商业 方面 ， 有 ActiveState 公司 的 Komodo IDE 。 它 需要 用 户 为 单位 的 授权 许可 ， 但 学 生 可 
以 得 到 折扣 ， 同 时 还 有 时 间 受 限 的 免费 试用 版 。 

在 用 Python 编程 的 九 年 中 ， 我 使 用 GNU Emacs 编辑 Python 程序 ， 并 在 命令 行 Python 
Shell 中 进行 调试 。 对 于 使 用 Python 开发 来 说 ， 编 辑 器 之 选 没有 绝对 的 正确 和 错误 。 重 要 的 
是 找到 适合 自己 的 道路 ! 


Chapter 1 你 的 第 一 个 Python 程序 


" Don't bury your burden in saintly silence. You have a problem? Great. Rejoice, dive in, 
and investigate. " — Ven. Henepola Gunaratana 


Diving In 


通常 程序 设计 的 书籍 都 会 以 一 堆 关 于 基础 知识 的 章节 开始 ， 最 终 逐 步 的 构建 一 些 有 用 的 未 
西 。 让 我 们 跳 过 所 有 的 那些 东西 ， 来 看 一 个 完整 的 、 可 以 直接 运行 的 Python 程序 。 可 能 刚 开 
始 你 根本 看 不 懂 ， 但 不 要 担心 ， 因 为 你 会 去 一 行 一 行 的 仔细 研究 。 但 是 首先 还 是 要 通读 一 
通 ， 看 看 里 面 什么 东西 (如 果 有 的 话 ) 是 你 可 以 看 懂 的 。 





SUFFIXES = (1000: ['KB', 'MB', 'GB', 'TB', 'PB', 'EB', 'ZB', 'YB'], 
3024: ['KiB', 'MiB', 'GiB', 'TiB', 'PiB', 'EiB', 'ZiB', 'YiB']} 


def approximate_size(size, a_kilobyte_is_1024_bytes=True): 
'''Convert a file size to human-readable form. 


Keyword arguments: 

size -- file size in bytes 

a kilobyte is 1024 bytes -- if True (default), use multiples of 1024 
if False, use multiples of 1000 


Returns: string 


if size <0: 
raise ValueError('number must be non-negative') 


multiple = 1024 if a_kilobyte_is_1024_bytes else 1000 
for suffix in SUFFIXES[multiple]: 
size /= multiple 
if size < multiple: 
return '{0:.1f} {1}'.format(size, suffix) 


raise ValueError('number too large') 
if name == ' qain ': 


print(approximate size(1000000000000, False)) 
print(approximate size(1000000000000)) 





现在 让 我 们 从 命令 行 来 运行 这 个 程序 。 在 Windows 上 ， 类 似 这 样 : 


c:NhomeNdiveintopython3Nexamples» c:Npython31Npython.exe humansize.py 
1.0 TB 
931.3 GiB 


ft Mac OS X 或 者 Linux 上 ， 类 似 这 样 : 


youQlocalhost:-/diveintopython3/examples$ python3 humansize.py 
1.0 TB 
931.3 GiB 


刚刚 发 生 了 什么 ? 你 执行 了 你 的 第 一 个 Python 程序 。 你 从 命令 行 调 用 了 Python 解释 器 ， 并 
且 传递 了 一 个 你 想 Python 去 执行 的 脚本 的 名 称 。 这 个 脚本 定义 了 一 个 单一 的 画 数 ， 这 个 
approximate size() 图 数 把 一 个 精确 到 字 节 的 文件 大 小 计算 成 一 个 有 漂亮 格式 (大约 计算 
的 ) 的 大 小 。 (你 可 能 已 经 在 Windows Explorer， 或 者 Mac OS X Finder， 或 者 Linux 上 的 
Nautilus 或 Dolphin 或 Thunar 看 到 过 这 个 。 如 果 你 按照 多 列 的 列表 来 显示 一 个 文件 夹 的 文 
档 ， 它 就 会 显示 一 个 包含 文档 图 标 、 文 档 名 称 、 大 小 、 类 型 、 最 后 修改 日 期 等 等 信息 的 表 
格 。 如 果 这 个 文件 夹 包含 一 个 1093 字 节 大 小 名 叫 too 的 文件 ， 你 的 文件 管理 器 将 不 会 显 
zRPX TODO 1093 bytes , 而 用 Topo 1 KB 的 显示 格式 代替 。 那 就 是 approximate size() E 


数 所 做 的 事情 。 ) 


看 看 这 个 脚本 的 底部 ， 你 会 看 到 对 print(approximate size( arguments )) 的 两 次 调用 。 这 
些 叫 做 函数 调用 一 一 第 一 个 调用 了 approximate size() 画 数 并 传递 了 一 些 参数 ， 接 着 直接 
把 返回 值 传 递 给 了 print() K. ZD print() 画 数 是 内 冒 的 ， 你 将 从 不 会 看 到 它 的 一 个 
显 式 的 声明 。 你 只 管 在 需要 的 任何 时 候 任 何 地 方 使 用 它 就 行 。 (有 很 多 内 置 画 数 ， 更 多 的 函 
数 独立 于 各 个 modules (模块 ) 里 面 。 保 持 耐 心 ， 你 会 逐步 熟悉 它们 的 。) 


那么 为 什么 每 次 在 命令 行 运行 脚本 都 会 给 你 同 祥 的 输出 结果 呢 ? 我 们 将 讲解 这 个 。 首 先 ， 让 
我 们 来 看 一 下 approximate size() WL 


F5 BHER ZA 


像 多 数 其 他 语言 一 样 ， Python EARN, 但 是 它 没有 像 C++ 一 样 的 单独 头 文件 ， 也 没有 像 
Pascal 一 样 interface / implementation (接口 一 实现) 部 分 。 当 你 需要 一 个 函数 的 时 候 ， 
就 像 这 样 声 明 它 就 行 : 


def approximate size(size, a kilobyte is 1024 bytes-True): 


当 你 需要 一 个 函数 的 时 候 ， 只 要 声明 它 就 行 。 


函数 声明 以 关键 字 det 开头 ， 紧 跟着 落 数 的 名 称 ， 然 后 是 用 括号 括 起 来 的 参数 。 多 个 参数 以 


354) 8l. 


[B8 EX&, KATEL- NRO, Python KATH E e dB giRIBMA BU 3E EU, ERR 
指定 它们 是 否 返回 一 个 值 。 (事实 上 ， 每 个 Python KAARE — T 48, MRNAS 28 dA 
行 了 return 语句 ， 它 将 返回 那个 值 ， 否 则 它 将 返回 Python 里 面 的 空 值 None o ) 





在 某 些 语言 里 面 ， 函 数 (返回 一 个 值 ) 以 function 开头 ， 同 时 子 程序 〈 不 返回 值 
的 ) 以 sub 开头 。 Python 里 面 没有 子 程序 。 所 有 的 东西 都 是 一 个 阔 数 ， 所 有 的 函数 都 
返回 一 个 值 (即使 它 是 noe 值 ) ， 并 且 所 有 的 函数 都 以 def 开头 。 


























approximate size() 函数 有 两 个 参数 一 size 和 a kilobyte is 1024 bytes 一 但 都 没有 指 
定数 据 类 型 。 在 Python 里 面 ， 变 量 从 来 不 会 显 式 的 指定 类 型 。Python 会 在 内 部 算出 一 个 变 
量 的 类 型 并 进行 跟踪 。 











在 Java 和 其 他 静态 类 型 的 语言 里 面 ， 你 必须 给 函数 返回 值 和 每 个 函数 参数 指定 数据 类 
性 。 而 在 Python 里 面 ， 你 从 来 不 需要 给 任何 未 西 指定 显 式 的 数据 类 型 。 根 据 你 赋 的 值 ， 
Python 会 在 内 部 对 数据 类 型 进行 跟踪 。 


可 选 的 和 命名 的 参 效 


Python 克 许 函数 函数 有 默认 值 。 如 果 画 数 被 调用 的 时 候 没 有 指定 参数 ， 那 么 参数 将 使 用 默认 
值 。 不 仅 如 此 ， 通 过 使 用 命名 参数 还 可 以 按照 任何 顺序 指定 参数 。 


让 我 们 再 看 一 下 approximate size() WAPI AÆ H : 


def approximate size(size, a kilobyte is 1024 bytes-True): 


第 二 个 参数 akilobyte is 1024 bytes 指定 了 一 个 默认 值 True 。 意思 是 这 个 参数 是 
optional 〈 可 选 的 ) ， 你 可 以 在 调用 的 时 候 不 指定 它 ，Python 将 看 成 你 调用 的 时 候 使 用 了 
True 作为 第 二 个 参数 。 


现在 看 一 下 这 个 脚本 的 底部 : 


if name == ' main 





1. 这 个 对 approximate_size() WARAPA ET 7T 2345. TE approximate size() PXZX 
里 面 ， a kilobyte is 1024 bytes 的 值 将 为 False , 因为 你 显 式 的 传人 了 False 作为 
第 二 个 参数 。 

2， 这 个 对 approximate size() 图 数 的 调用 只 指定 了 一 个 参数 。 但 这 是 可 以 的 ， 因 为 第 二 个 
参数 是 可 选 的 ! 由 于 调用 者 没有 指定 ， 第 二 个 参数 就 会 使 用 在 函数 声明 的 时 候 定 义 的 默 
认 值 True o 


你 也 可 以 通过 名 称 将 值 传人 一 个 西数 。 


>>> from humansize import approximate size 
'4.0 KB' 
'4.0 KB' 
'4.0 KB' 


File "«stdin»", line 1 
SyntaxError: non-keyword arg after keyword arg 


File "«stdin»", line 1 
SyntaxError: non-keyword arg after keyword arg 


1. 这 个 对 approximate size() 图 数 的 调用 给 第 一 个 参数 (( size ) 指定 了 值 4000, 3fH 
给 名 为 a kilobyte is 1024 bytes 的 参数 指定 了 值 False 。 (和 那 碰巧 是 第 二 个 参数 ， 但 
这 没有 关系 ， 马 上 你 就 会 了 解 到 。) 


2. 这 个 对 approximate size() 图 数 的 调用 给 名 为 ”size 参数 指定 了 值 4000 ， 并 为 名 为 
a kilobyte is 1024 bytes 的 参数 指定 了 值 False o (这 些 命名 参数 碰巧 和 图 数 声 明 时 
列 出 的 参数 顺序 一 样 ， 但 同 祥 不 要 紧 。) 

3. 这 个 对 approximate size() 回 数 的 调用 给 名 为 a kilobyte is 1024 bytes 的 参数 指定 了 
值 False ， 然 后 给 名 为 size 的 参数 指定 了 值 40000 (看 到 了 没 ? 我 告诉 过 你 顺序 没 
有 关系 。) 

4. 这 个 调用 会 失败 ， 因 为 你 在 命名 参数 后 面 紧 跟 了 一 个 非 命 名 (位置 的 ) 的 参数 ， 这 个 一 
定 不 会 工作 。 从 左 到 右 的 读 取 参数 列表 ， 一 旦 你 有 一 个 命名 的 参数 ， 剩 下 的 参数 也 必须 
是 命名 的 。 

5. 这 个 调用 也 会 失败 ， 和 前 面 一 个 调用 同样 的 原因 。 是 不 是 很 惊讶 ? 别 忘 了 ， 你 给 名 为 
size 的 参数 传人 了 值 4000 ， 那 么 “显然 的 ”False 这 个 值 意味 着 对 应 了 
a kilobyte is 1024 bytes 参数 。 但 是 Python 不 按照 这 种 方式 工作 。 只 要 你 有 一 个 命名 
参数 ， 它 右边 的 所 有 参数 也 都 需要 是 命名 参数 。 


编写 易 读 的 代码 


我 不 会 长 期 指 手 划 脚 的 来 烦 你 ， 解 释 给 你 的 代码 添加 文档 注释 的 重要 性 。 只 要 知道 代码 被 编 
写 一 次 但 是 会 被 阅读 很 多 次 ， 而 且 你 的 代码 最 要 的 读者 就 是 你 自己 ， 在 编写 它 的 六 个 月 以 后 
(例如 ， 当 你 忘记 了 所 有 的 东西 但 是 又 需要 去 修正 一 些 东 西 的 时 候 ) 。 Python 使 得 编写 易 读 
的 代码 非常 容易 ， 因 此 要 利用 好 这 个 优势 。 六 个 月 以 后 你 将 会 感谢 我 。 


文档 字符 串 


你 可 以 通过 使 用 一 个 文档 字符 串 (简称 docstring ) 的 方式 给 Python 添加 文档 注释 。 在 这 
个 程序 中 ， 这 个 approximate size() 图 数 有 一 个 docstring : 
def approximate size(size, a kilobyte is 1024 bytes-True): 
'''Convert a file size to human-readable form. 
Keyword arguments: 
size -- file size in bytes 
a kilobyte is 1024 bytes -- if True (default), use multiples of 1024 
if False, use multiples of 1000 


Returns: string 


每 个 函数 都 值得 有 一 个 合适 的 docstring (文档 字符 串 ) 。 


三 重 引号 表示 一 个 多 行 的 字符 串 。 在 开始 引号 和 结束 引号 之 间 的 所 有 东西 都 属于 一 个 单独 的 
字符 串 的 一 部 分 ， 包 括 回 车 、 前 导 空 格 、 和 其 他 引号 字符 。 你 可 以 在 任何 地 方 使 用 它们 ， 但 
是 你 会 发 现 大 部 分 时 候 它 们 在 定义 docstring (文档 注释 ) 的 时 候 使 用 。 





三 重 引号 也 是 一 种 容易 的 方法 ， 用 来 定义 一 个 同时 包含 单 引号 和 双 引 号 的 字符 串 ， 就 
像 Perl 5 里 面 的 qq/.../ 一 样 。 


三 重 引号 之 间 的 所 有 未 西 都 是 这 个 函数 的 docstring (文档 字符 串 ) ， 用 来 用 文档 描述 这 个 
函数 是 做 什么 的 。 一 个 docstring (文档 字符 串 ) ， 如 果 有 的 话 ， 必 须 是 一 个 函数 里 面 定义 
的 第 一 个 东西 〈 也 就 是 说 ， 紧 跟着 函数 声明 的 下 一 行 ) 。 你 不 需要 严格 的 给 你 的 每 个 画 数 提 
供 一 个 docstring 《文档 字符 串 ) ， 但 大 部 分 时 候 你 总 是 应 该 提供 。 PANE EAEN 
的 每 一 种 程序 语言 里 面 听 说 过 这 个 ， 但 是 Python 给 你 提供 了 额外 的 诱因 : 这 个 docstring 
(文档 字符 串 ) 就 像 这 个 函数 的 一 个 属性 一 样 在 运行 时 有 效 。 


很 多 Python 的 集成 开发 环境 (IDE) 使 用 docstring (文档 字符 串 ) 来 提供 上 下 文敏 
感 的 文档 ， 以 便于 当 你 输入 一 个 男 数 名 称 的 时 候 ， 它 的 docstring 会 以 一 个 提示 文本 的 
方式 显 式 出 来 。3 这 可 能 会 极其 有 用 ， 但 它 只 有 在 你 写 出 好 的 docstring (文档 字符 串 ) 
的 时 候 才 有 用 。 


import 的 搜索 路 径 


在 进一步 讲解 之 前 ， 我 想 简要 的 说 一 下 库 的 搜索 路 径 。 当 你 试图 导入 (import) 一 个 模块 的 时 
候 ， Python 会 会 寻找 几 个 地 方 。 具 体 来 说 ， 它 会 搜寻 在 sys.path 里 面 定 义 的 所 有 目录 。 这 只 

是 一 个 列表 ， 你 可 以 容易 地 查看 它 或 者 使 用 标准 的 列表 方法 去 修改 它 。 〈 在 内 年 数据 类 型 你 
会 了 解 更 多 关于 列表 的 信息 。) 


'/usr/lib/python31.zip', 

'/usr/lib/python3.1', 
'/usr/lib/python3.1/plat-linux2QEXTRAMACHDEPPATHQ'' , 
'/usr/lib/python3.1/lib-dynload', 
'/usr/lib/python3.1/dist-packages', 
'/usr/local/lib/python3.1/dist-packages'] 


«module 'sys' (built-in)» 
['/home/mark/diveintopython3/examples', 


'/usr/lib/python31.zip', 

'/usr/lib/python3.1', 
'/usr/lib/python3.1/plat-linux2Q0EXTRAMACHDEPPATHQ'' , 
'/usr/lib/python3.1/lib-dynload', 
'/usr/lib/python3.1/dist-packages', 
'/usr/local/lib/python3.1/dist-packages'] 


1. 导入 sys 模块 ， 使 它 的 所 有 男 数 和 属性 可 以 被 使 用 。 

2. sys.path 是 一 个 目 录 名 称 的 列表 ， 它 构 成 了 当前 的 搜索 路 径 。 (你 会 看 到 不 一 样 的 结 
果 ， 这 取决 于 你 的 操作 系统 ， 你 正在 运行 的 Python 的 版 本 ， 以 及 它 原来 被 安装 的 位 
iB, ) Python 会 从 头 到 尾 的 浏览 这 些 目录 (按照 这 个 顺序 ) ， 寻 找 一 个 和 你 正 要 导入 的 
模块 名 称 匹 配 的 .py 文件 。 

3.， 其 实 ， 我 说 谎 了 。 真 实情 况 比 那个 更 加 复 末 ， 因 为 不 是 所 有 的 模块 都 按照 .py 文件 来 存 
储 。 有 些 ， 比 如 sys 模块 ， 属 于 内 置 模块 (built-in modules) ， 他们 事实 上 被 置 入 到 


Python 本 身 里 面 了 。 内 置 模块 使 用 起 来 和 常规 模块 一 样 ， 但 是 无 法 取得 它们 的 Python 
源 代码 ， 因 为 它们 不 是 用 Python 写 的 ! ( sys 模块 是 用 C 语言 写 的 。) 

4. 通过 添加 一 个 目录 名 称 到 sys.path 8, ddp a RUND i Python 的 
搜索 路 径 中 ， 然 后 无 论 任 何 时 候 你 想 导 入 一 个 模块 ，Python 都 会 同样 的 去 查找 那个 目 
录 。 只 要 Python 在 运行 ， 都 会 Bion 

5. 通过 使 用 sys.path.insert(o, new path ) ， 你 可 以 插入 一 个 新 的 目录 到 sys.path 列 
表 的 第 一 项 ， 从 而 使 其 出 现在 Python 搜索 路 径 的 开头 。 这 几乎 总 是 你 想 要 的 。 万 一 a 
名 字 冲 突 〈 例 如 ，Python 自 带 了 版 本 2 的 一 个 特定 的 库 ， 但 是 你 想 使 用 版 本 3) , 
方法 就 能 确保 你 的 模块 能 够 被 发 现 和 使 用 ， 蔡 代 Python 自 带 的 版 本 。 


一 切 都 是 对 象 


假如 你 还 不 了 解 ， 我 重复 一 下 ， 我 刚刚 说 过 Python 函数 有 属性 ， 并 且 那 些 属性 在 运行 时 是 可 
用 的 。 一 个 函数 ， 就 像 Python 里 面 所 有 其 他 东西 一 样 ， 是 一 个 对 象 。 


运行 交互 式 的 Python Shell， 按 照 下 面 的 执行 


4.0 KiB 
Convert a file size to human-readable form. 


Keyword arguments: 

size -- file size in bytes 

a kilobyte is 1024 bytes -- if True (default), use multiples of 1024 
if False, use multiples of 1000 


Returns: string 


1. 第 一 行 导入 了 作为 一 个 模块 的 humansize 程序 一 我 们 可 以 交互 式 的 使 用 的 一 大 块 代 
码 ， 或 者 来 自 于 一 个 更 大 的 Python 程序 。 一 旦 你 导入 了 一 个 模块 ， 你 就 可 以 引用 它 的 任 
何 公 有 的 函数 、 类 、 或 者 属性 。 模 块 可 以 通过 这 种 方式 访问 其 他 模块 的 功能 ， 同 样 的 你 
也 可 以 在 Python 交互 式 的 Shell 里 面 做 这 样 的 事情 。 这 是 一 个 重要 的 概念 ， 贯 穿 这 本 
书 ， 你 会 看 到 更 多 的 关于 它 的 内 容 。 

2.， 当 你 想 使 用 在 导入 的 模块 中 定义 的 函数 的 时 候 ， 你 需要 包含 模块 的 名 称 。 因 此 你 不 能 仅 
仅 指明 approximate size ， 它 必须 是 humansize.approximate size 才 行 。 如 果 你 鲁 经 使 
用 过 Java 里 面 的 类 ， 你 就 会 依稀 的 感觉 到 这 种 方式 比较 熟悉 。 

3. 除了 按照 你 期 望 的 方式 调用 这 个 函数 ， 你 查看 了 这 个 函数 的 其 中 一 个 属性 : doc o 


Python 里 面 的 import 就 像 Perl 里 面 的 require 。 一 旦 你 导入 ( import ) 了 一 
Python 模块 ， 你 就 可 以 通过 module`. function 的 方式 访问 它 的 函数 ; 一 旦 你 要 求 

( require ) 了 一 个 Perl 模块 ， 你 就 可 以 通过 module`::`function 的 方式 访问 它 的 范 
数 。 





什么 是 一 个 对 象 ? 


Python 里 面 的 所 有 东西 都 是 对 象 ， 所 有 东西 都 可 以 有 属性 和 方法 。 所 有 函 数 都 有 一 个 内 置 的 
属性 doc ” ， 用 来 返回 这 个 画 数 的 源 代码 里 面 定义 的 文档 字符 串 ( docstring ) o sys 
模块 是 一 个 对 象 ， 它 有 (除了 别 的 以 外 ) DAU path 的 属性 ， 等 等 。 


不 过 ， 这 还 是 没有 回答 这 个 更 基础 的 问题 : 什么 是 一 个 对 象 ? 不 同 的 程序 语言 用 不 同 的 方式 
定义 了 "对象"”” 在 有 些 地 方 ， 它 意味 着 所 有 的 对 象 必 须要 有 属性 和 方法 ; 在 另 一 些 地 方 ， 它 意 
味 着 所 有 的 对 象 都 是 可 衍生 (可 以 创建 子 类 ) 的 。 在 Python 里 面 ， 定 义 更 加 宽松 。 有 些 对 象 
既 没 有 属性 也 没有 方法 ， 然 而 它 可 以 有 。 不 是 所 有 的 对 象 都 是 可 衍生 的 。 但 是 ， 所 有 的 东西 
都 是 对 象 ， 从 这 个 意义 上 说 ， 它 能 够 被 赋值 到 一 个 变量 或 者 作为 一 个 参数 传 入 一 个 图 数 。 


你 可 能 从 其 他 程序 语言 环境 中 听 说 过 “first-class object" 的 说 法 。 在 Python P, KAE first- 
class objects， 你 可 以 将 一 个 画 数 作为 一 个 参数 传递 给 另外 一 个 函数 ; 模块 是 first-class 
objects， 你 可 以 把 整个 模块 作为 一 个 参数 传递 给 一 个 函数 ; 类 是 first-class objects， 而 且 类 
的 单独 的 实例 也 是 first-class objects。 


这 个 很 重要 ， 因 此 刚 开 始 我 会 重复 几 次 以 防 你 忘记 了 : 在 Python 里 面 所 有 东西 都 是 对 象 。 字 
符 串 是 对 象 ， 列 表 是 对 象 ， 琅 数 是 对 象 ， 类 是 对 象 ， 类 的 实例 是 对 象 ， 其 至 模块 也 是 对 象 。 


代码 狂 进 


Python Kus ABAMI AA ( begin ) 或 者 结束 〈 ena ) ， 也 没有 用 大 括号 来 标记 图 数 从 哪 
里 开始 从 哪里 停止 。 唯 一 的 定 界 符 就 是 一 个 冒号 〈 : ) 和 代码 自身 的 缩 进 。 


multiple = 1024 if a kilobyte is 1024 bytes else 1000 
size /- multiple 
if size « multiple: 
return '(0:.1f) (1j)'.format(size, suffix) 


raise ValueError('number too large') 


1. 代码 块 是 通过 它们 的 缩 进来 定义 的 。 我 说 的 “代码 块 ”， 意 思 是 指 函 数 ， if 语句 、 for 
循环 、 while 循环 ， 等 等 。 缩 进 表 示 一 个 代码 块 的 开始 ， 非 缩 进 表 示 一 个 代码 的 结 
束 。 没 有 明确 的 大 括号 、 中 括号 、 或 者 关键 字 。 这 意味 着 空白 很 重要 ， 而 且 必 须要 是 一 
致 的 。 在 这 个 例子 中 ， 这 个 函数 按照 四 个 空格 缩 进 。 它 不 需要 一 定 是 四 个 空格 ， 只 是 需 
要 保持 一 致 。 第 一 个 没有 缩 进 的 行 标记 了 这 个 图 数 的 结束 。 

2. 在 Python 中 ， 一 个 if 语句 后 面 紧 跟 了 一 个 代码 块 。 如 果 if 表达 式 的 值 为 true 则 缩 
进 的 代码 会 被 执行 ， 否 则 它 会 跳 到 eise 代码 块 〈 如 果 有 的 话 ) 。 注 意 表 达 式 的 周围 没 
有 括号 。 

3. 这 一 行 在 ir 代码 块 里 面 。 这 个 raise 语句 将 抛 出 一 个 异常 (类 型 是 valueError 

) ， 但 只 有 在 size &lt; o 的 时 候 才 抛 出 。 

这 不 是 函数 的 结尾 。 完 全 空白 的 行 不 算 。 它 们 使 代码 更 加 易 读 ， 但 它们 不 算 作 代码 块 的 

定 界 符 。 这 个 画 数 在 下 一 行 继续 。 


5， 这 个 for 循环 也 标记 了 一 个 代码 块 的 开始 。 代 码 块 可 以 包含 多 行 ， 只 要 它们 都 按照 同样 
的 数额 缩 进 。 这 个 for 循环 里 面 有 三 行 。 对 于 多 行 的 代码 块 ， 也 没有 其 他 特殊 的 语法 ， 
只 要 缩 进 就 可 以 了 。 

在 刚 开 始 的 一 些 反对 声 和 一 些 类 比 到 Fortran 的 哮 笑 之 后 ， 你 将 会 平和 的 看 待 这 个 并 开始 领会 

到 它 的 好 处 。 一 个 主要 的 好 处 是 所 有 的 Python 程序 看 起 来 都 类 似 ， 因 为 缩 进 是 一 个 语言 的 要 

求 ， 不 是 一 个 风格 的 问题 。 这 使 得 阅读 和 理解 其 他 人 的 Python 代码 更 加 容易 。 








Python 使 用 回 车 符 来 分 割 语句 ， 使 用 一 个 冒号 和 缩 进来 分 割 代码 块 。 C++ 和 Java 使 
用 分 号 来 分 割 语句 ， 使 用 大 括号 来 分 割 代码 块 。 
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异常 在 Python PEATE., S3 ETEROÉ Python 库 里 面 的 每 个 模块 都 使 用 它们 ， 而 且 在 很 
多 不 同情 形 下 ， Python 自身 也 会 抛 出 异常 。 贯 穿 这 本 书 ， 你 会 反复 的 看 到 它们 。 


什么 是 一 个 异常 ?通常 情况 下 ， 它 是 一 个 错误 ， 提 示 某 个 东西 出 问题 了 。 (不 是 所 有 的 异常 
都 是 错误 ， 但 目前 来 说 别 担心 那个 ) 某 些 程序 语言 鼓励 对 错误 返回 代码 的 使 用 ， 你 可 以 对 它 
行 


进行 检查 。 Python 鼓励 对 异常 的 使 用 ， 你 可 以 对 它 进 行 处 理 。 


当 一 个 错误 发 生 在 Python Shell 里 面 的 时 候 ， 它 会 打印 一 些 关 于 这 个 异常 以 及 它 如 何 发 生 的 
详细 信息 ， 就 此 而 已 。 这 个 被 称 之 为 一 个 未 被 义理 的 异常 。 在 这 个 异常 被 抛 出 的 时 候 ， 没 有 
代码 注意 到 并 人 处理 它 ， 因 此 它 把 它 的 路 笃 冒 出 来 ， 返 回 到 Python Shell 的 最 顶层 ， 输 出 一 些 
调试 信息 ， 然 后 圆满 结束 。 在 这 个 Shell 中 ， 这 没什么 大 不 了 的 ， 但 是 如 果 在 你 的 实际 
Python 程序 正在 运行 的 时 候 发 生 ， 并 且 对 这 个 异常 没有 做 任何 处 理 的 话 ， 整 个 程序 就 会 吓 的 
一 声 停 下 来 。 可 能 那 正 是 你 想 要 的 ， 也 可 能 不 是 。 


不 像 Java, Python 画 数 不 声明 它们 可 能 会 抛 出 哪些 异常 。 它 取决 于 你 去 判断 哪些 可 
能 的 异常 是 你 需要 去 捕获 的 。 








一 个 异常 不 会 造成 整个 程序 崩溃 。 不 过 ， 异 常 是 可 以 被 处 理 的 。 有 时 候 一 个 异常 是 真正 地 由 
于 你 代码 里 面 的 一 个 bug 所 引起 的 〈 比 如 访问 一 个 不 存在 的 变量 ) ， 但 有 时 候 一 个 异常 是 你 
可 以 预料 到 的 东西 。 如 果 你 在 打开 一 个 文件 ， 它 有 可 能 不 存在 。 如 果 你 在 导入 一 个 模块 ， 它 
可 能 没有 被 安装 。 如 果 你 在 连接 到 一 个 数据 库 ， 它 有 可 能 是 无 效 的 ， 或 者 你 可 能 没有 访问 它 
需要 的 安全 认证 信息 。 如 果 你 知道 某 行 代码 可 能 抛 出 一 个 异常 ， 你 应 该 使 用 try...except 块 
来 处 理 这 个 异常 。 


Python 使 用 try...except 块 来 处 理 异常 ， 使 用 raise 语句 来 抛 出 异常 。 Java 和 
C++ 使 用 try...catch 块 来 处 理 异 常 ， 使 用 throw 语句 来 抛 出 异常 。 


这 个 approximate size() 本 数 在 两 个 不 同 的 情况 下 抛 出 异常 : 如 果 给 定 的 size 的 值 大 于 这 
个 函数 打算 义理 的 值 ， 或 者 如 果 它 小 于 雪 。 


if size « 0: 
raise ValueError('number must be non-negative') 


抛 出 一 个 异常 的 语法 足够 简单 。 使 用 raise 语句 ， 紧 跟着 异常 的 名 称 ， 和 一 个 人 们 可 以 读 取 
的 字符 串 用 来 调试 。 这 个 语法 让 人 想起 调用 的 函数 。 (实际 上 ， 异 常 是 用 类 来 实现 的 ， 这 个 
raise 语句 事实 上 正在 创建 一 个 valueError 类 的 实例 并 传递 一 个 字符 串 

'number must be non-negative' 到 它 的 初始 化 方法 里 面 。 但 是 ， 我 们 已 经 有 些 超 前 了 ! ) 





你 不 需要 在 抛 出 异常 的 函数 里 面 去 处 理 它 。 如 果 一 个 辑 数 没有 处 理 它 ， 这 个 异常 会 被 
传递 到 它 的 调用 函数 ， 然 后 那个 函数 的 调用 函数 ， 等 等 “在 这 个 堆栈 上 面 。” 如 果 这 个 异 
常 从 来 没有 被 多 理 ， 你 的 程序 将 会 月 江 ， Python 将 会 打印 一 个 “traceback” 的 标准 错误 
信息 ， 并 以 此 结束 。 这 也 可 能 正 是 你 想 要 的 ， 它 取决 于 你 的 程序 具体 做 什么 。 


捕获 导入 错误 


其 中 一 个 Python 的 内 置 异 常 是 ImportError ， 它 会 在 你 试图 导 人 一 个 模块 并 且 失 败 的 时 候 抛 
出 。 这 有 可 能 由 于 多 种 原因 引起 ， 但 是 最 简单 的 情况 是 当 在 你 的 import 搜索 路 径 里 面 找 不 到 
这 个 模块 的 时 候 会 发 生 。 你 可 以 用 这 个 来 包含 可 选 的 特性 到 你 的 程序 中 。 例 如 ， 这 个 
chardet È 提供 字符 编码 自动 检测 。 也 许 你 的 程序 想 在 这 个 库存 在 的 时 候 使 用 它 ， 但 是 如 果 
用 户 没 有 安装 ， 也 会 优雅 地 继续 执行 。 你 可 以 使 用 try..except 块 来 做 这 样 的 事情 。 


<mark>try</mark>: 
import chardet 
<mark>except</mark> ImportError: 
chardet = None 


然后 ， 你 可 以 用 一 个 简单 的 if 语句 来 检查 chardet 模块 是 否 存在 : 


If chardet : 

# do Something 
else: 

4 continue anyway 


另 一 个 对 ImportError 异常 的 通常 使 用 是 当 两 个 模块 实现 了 一 个 公共 的 API， 但 我 们 更 想 要 
其 中 一 个 的 时 候 。 (可 能 它 速 度 更 快 ， 或 者 使 用 了 更 少 的 内 存 。) 你 可 以 试 着 导入 其 中 一 个 
模块 ， 并 且 在 这 个 模块 导入 失败 的 时 候 退 回 到 另 一 个 不 同 的 模块 。 例 如 ， XML 的 章节 谈论 了 
两 个 模块 实现 一 个 公共 的 API, MH ElementTree API 第 一 个 ， lxml 是 一 个 第 三 方 的 模 
块 ， 你 需要 自己 下 载 和 安装 。 第 二 个 ， xml.etree.ElementTree 比较 慢 ， 但 属于 Python 3 标 
准 库 的 一 部 分 。 


try: 
from lxml import etree 
except ImportError: 
import xml.etree.ElementTree as etree 


在 这 个 try..except 块 的 结尾 ， 你 导入 了 某 个 模块 并 取 名 为 ”etree 。 由 于 两 个 模块 实现 了 一 
个 公共 的 APl， 你 剩 下 的 代码 不 需要 一 直 去 检查 哪个 模块 被 导入 了 。 而 且 由 于 这 个 一 定 会 被 导 
入 的 模块 总 是 叫做 etree ， 你 余下 的 代码 就 不 会 被 调用 不 同名 称 模块 的 if 语句 所 打 乱 。 


Unbound % © 
再 看 看 approximate_size() WAE HANITA : 


multiple = 1024 if a kilobyte is 1024 bytes else 1000 


你 从 不 声明 这 个 multiple 变量 ， 你 只 是 给 它 赋 值 了 。 这 样 就 可 以 了 ， 因 为 Python 让 你 那样 
做 。 Python 将 不 会 让 你 做 的 是 ， 引 用 了 一 个 变量 ， 但 从 不 给 它 赋值 。 这 样 的 尝试 将 会 抛 出 一 


Ea 
个 NameError 的 异常 。 


>>> x 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

NameError: name 'x' is not defined 

>>> X = T 

>>> X 

1 


将 来 有 一 天 ， 你 会 因为 这 个 而 感谢 Python 。 


所 有 的 东西 都 是 区 分 大 小 写 的 


Python 里 面 所 有 的 名 称 都 是 区 分 大 小 写 的 : ZEA, KAE, ZE, RREA REAM 
如 果 你 可 以 获取 它 、 设 置 它 、 调 用 它 、 构 建 它 、 导 和 人 它 、 或 者 抛 出 它 ， 那 么 它 就 是 区 分 大 小 
写 的 。 


>>> an_integer = 1 

>>> an_integer 

1 

>>> AN_INTEGER 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
NameError: name 'AN INTEGER' is not defined 
>>> An Integer 
Traceback (most recent call last): 

File "«stdin»", line 1, in «module» 
NameError: name 'An Integer' is not defined 
>>> an inteGer 
Traceback (most recent call last): 

File "«stdin»", line 1, in «module» 
NameError: name 'an inteGer' is not defined 


等 等 。 


运行 脚本 
Python 里 面 所 有 东西 都 是 对 象 。 
Python 模块 是 对 象 ， 并 且 有 几 个 有 用 的 属性 。 在 你 编写 它们 的 时 候 ， 通 过 包含 一 个 特殊 的 仅 


在 你 从 命令 行 运行 Python 文件 的 时 候 执行 的 代码 块 ， 你 可 以 使 用 这 些 属 性 容易 地 测试 你 的 模 
Ak. AA humansize.py 的 最 后 几 行 代 码 : 
if name == ' main 


print(approximate size(1000000000000, False)) 
print(approximate size(1000000000000)) 





像 C 语言 一 样 ， Python 使 用 == 来 做 比较 ， 用 = KRA. TAF C 语言 的 是 ， 
Python 不 支持 内 启 的 赋值 ， 所 以 没有 机 会 出 现 你 本 以 为 在 做 比较 而 且 意 外 的 写成 赋值 的 
情况 。 





那么 是 什么 使 得 这 个 if 语句 特别 的 呢 ? 好 吧 ， 模 块 是 对 象 ， 并 且 所 有 模块 都 有 一 个 内 置 的 
属性 nae 。” 。 一 个 模块 的 _ name ”属性 取决 于 你 怎么 来 使 用 这 个 模块 。 如 果 你 import 
这 个 模块 ， 那 么 — name ”就 是 这 个 模块 的 文件 名 ， 不 包含 目录 的 路 径 或 者 文件 的 扩展 名 。 


>>> import humansize 
>>> humansize. name . 
'humansize' 


但 是 你 也 可 以 当 作 一 个 独立 的 程序 直接 运行 这 个 模块 ， 那 样 的 话 _name ”将 是 一 个 特殊 的 
默认 值 _main  。 Python 将 会 评估 这 个 if 语句 ， 寻 找 一 个 值 为 true 的 表达 式 ， 然 后 执 
行 这 个 if 代码 块 。 在 这 个 例子 中 ， 打 印 两 个 值 。 


c:NhomeNdiveintopython3» c:Npython31Npython.exe humansize.py 
1.0 TB 
931.3 GiB 


这 就 是 你 的 第 一 个 Python 程序 ! 


深入 阅读 


e PEP 257: Docstring 约定 解释 了 用 什么 来 从 大 量 的 docstring 中 分 辨 出 一 个 好 的 
docstring o 

e Python 教程 : 文档 字符 串 也 略微 提 到 了 这 个 主题 。 

e PEP 8: Python 代码 的 风格 指南 讨论 了 好 的 缩 进 风格 。 

e Python 参考 手册 解释 了 为 什么 说 Python 里 面 所 有 东西 都 是 对 象 ， 因 为 有 些 人 是 书 呆 
子 ， 喜 欢 详细 地 讨论 一 些 东 西 。 


Chapter 2 内 置 数 据 类 型 


" Wonder is the foundation of all philosophy, inquiry its progress, ignorance its end. " 一 
Michel de Montaigne 


VK AN 


让 我 们 暂时 将 第 一 份 Python 程序 抛 在 脑 后 ， 来 聊 一 聊 数 据 类 型 。 在 Python 中 ， 每 个 值 都 
有 一 种 数据 类 型 ， 但 您 并 不 需要 声明 变量 的 数据 类 型 。 那 该 方式 是 如 何 运作 的 呢 ? Python 根 
据 每 个 变量 的 初始 赋值 情况 分 析 其 类 型 ， 并 在 内 部 对 其 进行 跟踪 。 


Python 有 多 种 内 置 数 据 类 型 。 以 下 是 比较 重要 的 一 些 : 


1. Booleans [布尔 型 ] 或 为 True [DE]. A False [B] 。 


2. Numbers [数值 型 ] 可 以 是 Integers [整数 ] (1 和 2 ) 、Floats [ 浮 点 数 ] (1.1 
和 1.2) . Fractions [分 数 ] ( 1/2 和 2/3) ; 甚至 是 Complex Number [复数 ] 。 

3. Strings [字符 串 型 ] 是 Unicode 字符 序列 ， 例 如 : 一 份 HTML 文档 。 

4. Bytes [2 5] 和 Byte Arrays [ 字 节 数组 ] ， 例如: 一 份 JPEG 图 像 文件 。 

5. Lists [列表 ] 是 值 的 有 序 序列 。 

6. Tuples [元 组 ] 是 有 序 而 不 可 变 的 值 序列 。 

7. Sets [RE] EIE Bgm, 

8. Dictionaries [FË] 是 键 值 对 的 无 序 包 襄 。 


当然 ， 还 有 更 多 的 类 型 。 在 Python 中 一 切 均 为 对 象 ， 因 此 存在 像 module [模块 ] 、 
function [Kt] 、 class [类 ] 、 method [方法 ] . file [文件 ] 其 至 compiled code [B 
编译 代码 ] 这 样 的 类 型 。 您 已 经 见 过 这 样 一 些 例子 : 模块 的 name、 KAI docstrings 等 
等 。 将 学 到 的 包括 《类 与 迭代 器 》 中 的 Classes [类 ] ， 以 及 《文件 》 中 的 Files [X 
件 ] 。 


Strings [字符 串 ] 和 Bytes [ 字 节 串 ] 比较 重要 ， 也 相对 复杂 ， 足 以 开辟 独立 章节 予以 讲述 。 
让 我 们 先 看 看 其 它 类 型 。 


布尔 类 型 


xK LL 


在 布尔 类 型 上 下 文中 ， 您 几乎 可 以 使 用 任何 表达 式 。 


布尔 类 型 或 为 真 或 为 假 。Python 有 两 个 被 巧妙 地 命名 为 True 和 False 的 常量 ， 可 用 于 对 
布尔 类 型 的 直接 赋值 。 表 达 式 也 可 以 计算 为 布尔 类 型 的 值 。 在 某 些 地 方 (如 if 语句 ) ， 
Python 所 预期 的 就 是 一 个 可 计算 出 布尔 类 型 值 的 表达 式 。 这 些 地 方 称 为 布尔 类 型 上 下 文 环 


境 。 事 实 上 ， 可 在 布尔 类 型 上 下 文 环境 中 使 用 任何 表达 式 ， 而 Python 将 试图 判断 其 真 值 。 在 
布尔 类 型 上 下 文 环境 中 ， 不 同 的 数据 类 型 对 于 何 值 为 真 、 何 值 为 假 有 着 不 同 的 规则 。 a 
本 章 稍 后 的 实例 后 ， 这 一 点 将 更 好 理解 。) 


例如 ， 看 看 humansize.py 中 的 这 个 片段 : 


if size « 0: 
raise ValueError('number must be non-negative') 


size 是 整数 ， 0 是 整数 ， 而 alt; 是 数字 运算 符 。 size alt; o 表达 式 的 结果 始终 是 布尔 
值 。 可 在 Python 交互 式 shell 中 自行 测试 下 结果 : 


25» size-1 
>>> size < 0 
False 

>>> size = 
>>> size < 
False 

>>> size = -1 
>>> size < 0 
True 


oco 


由 于 Python 2 的 一 些 遗 留 问题 ， 布 尔 值 可 以 当做 数值 对 待 。 True 为 1 ; False 为 0。 


>>> True + True 


2 
>>> True - False 
1 
>>> True * False 
0 


>>> True / False 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ZeroDivisionError: int division or modulo by zero 


B, "E, UE | 别 那么 干 。 忘 掉 我 刚才 说 的 。 


数值 类 型 


数值 类 型 是 可 景 的 。 有 太 多 类 型 可 选 了 。Python 同时 支持 Integer uses 和 Floating 
Point [ 浮 点 型 ] 数值 。 无 任何 类 型 声明 可 用 于 区 分 ; Python 通过 小 数 点 来 分 辨 它 
们 。 


«class 'int'» 
True 

2 

2.0 


>>> type(2.0) 
«class 'float'» 


1， 可 以 使 用 type KARKR mE As AEE, EP, 1 为 int 类 型 。 

2. 同样 ， 还 可 使 用 isinstance() 函数 判断 某 个 值 或 变量 是 否 为 给 定 某 个 类 型 。 

3. 将 一 个 int 与 一 个 int 相 加 将 得 到 一 个 int o 

4. 将 一 个 int 与 一 个 float 相 加 将 得 到 一 个 float o Python 把 int 强制 转换 为 
float 以 进行 加 法 运算 ; 然后 返回 一 个 float 类 型 的 结果 。 


将 整数 强制 转换 为 浮 点 数 及 反 向 转换 


正如 刚才 所 看 到 的 ， 一 些 运 算 符 ( 如 : 加 法 ) 会 根据 需 把 整数 强制 转换 为 浮 点 数 。 也 可 自行 
对 其 进行 强制 转换 。 


1.1234567890123457 


«class 'int'» 


通过 调用 float() KA, mIELWzRHÜdRR int 强制 转换 为 float o 

毫 不 出 奇 ， 也 可 以 通过 调用 int() 将 float 强制 转换 为 int o 

int() 将 进行 取 整 ， 而 不 是 四 舍 五 入 。 

对 于 负数 ， int() BAHA 0 的 方法 进行 取 整 。 它 是 个 真正 的 取 整 (截断 ) 函数 ， 而 不 
是 floor [itik] 函数 。 

5. 浮 点 数 精确 到 小 数 点 后 15 位 。 

6. 整数 可 以 任意 大 。 


^om 


Python 2 对 于 int [529] 和 long [Lks£9] 采用 不 同 的 数据 类 型 。 inc 数据 类 型 受 
到 sys.maxint 的 限制 ， 因 平台 该 限制 也 会 有 所 不 同 ， 但 通常 是 2**32-1 。Python 3 只 
有 一 种 整数 类 型 ， 其 行为 方式 很 有 点 像 Python 2 的 旧 long [x89]. 类型。 参阅 PEP 
237 了 解 更 多 细节 。 


对 数值 可 进行 各 种 类 型 的 运算 。 


1. / 运算 符 执 行 浮 点 除法 。 即 便 分 子 和 分 母 都 是 int ， 它 也 返回 一 个 float 浮 点 数 。 

2. // 运算 符 执行 古怪 的 整数 除法 。 如 果 结 果 为 正 数 ， 可 将 其 视 为 朝向 小 数位 取 整 (不 是 
四 舍 五 人) ， 但 是 要 小 心 这 一 点 。 

3， 当 整数 除 以 负数 ， // 运算 符 将 结果 朝 着 最 近 的 整数 “向 上 ”四 舍 五 人。 从 数学 角度 来 
说 ， 由 于 -6 bk -5 要 小 ， 它 是 “向 下 ?四 舍 五 人 ， 如 果 期 望 将 结果 取 整 为 -5 ， 它 将 会 
误导 你 。 

4. // 运算 符 并 非 总 是 返回 整数 结果 。 如 果 分 子 或 者 分 母 是 float ， 它 仍 将 朝 着 最 近 的 整 
数 进行 四 舍 五 人 ， 但 实际 返回 的 值 将 会 是 float 类 型 。 

5. ** ZARADE GRE, 11**2 结果 为 121 。 

6. x 运算 符 给 出 了 进行 整除 之 后 的 余数 。 11 RA 2 结果 为 5 以 及 余数 1 ， 因 此 此 
处 的 结果 为 1 。 


在 Python 2 中 ， 运 算 符 / 通常 表示 整数 除法 ， 但 是 可 以 通过 在 代码 中 加 入 特殊 指 
令 ， 使 其 看 起 来 像 浮 点 除法 。 在 Python 3 rh, / 和 运算 符 总 是 表示 浮 点 除法 。 参 阅 PEP 
238 了 解 更 多 细节 。 


分 效 


Python 并 不 仅仅 局 限于 整数 和 浮 点 数 类 型 。 它 可 以 完成 你 在 高 中 阶段 学 过 、 但 几乎 已 经 全 部 
忘 光 的 所 有 古怪 数学 运算 。 











>>> X 
Fraction(1, 3) 


Fraction(2, 3) 

Fraction(3, 2) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "fractions.py", line 96, in new . 


raise ZeroDivisionError('Fraction(9?:s, 0)' % numerator) 
ZeroDivisionError: Fraction(0, 0) 


1. 为 启用 fractions 模块 ， 必 先 引 入 fractions 模块 。 


2. 为 定义 一 个 分 数 ， 创 建 一 个 Fraction 对 象 并 传人 分 子 和 分 母 。 

3， 可 对 分 数 进 行 所 有 的 常规 数学 计算 。 运 算 返 回 一 个 新 的 Fraction 对 
象 。 2 * (1/3) = (2/3) 

4. Fraction 对 象 将 会 自动 进行 约 分 。 (6/4) = (3/2) 

5. 在 杜绝 创建 以 需 为 分 母 的 分 数 方面 ，Python 有 着 良好 的 敏感 性 。 


=A KA 
还 可 在 Python 中 进行 基本 的 三 角 男 数 运 算 。 


>>> import math 
3.1415926535897931 
1.0 


0.99999999999999989 


1. math 模块 中 有 一 个 代表 T 的 常量 ， 表 示 圆 的 周 长 与 直径 之 比率 (圆周率) 。 

2. math 模块 包括 了 所 有 的 基本 三 角 函 数 ， 包括 : sin() 、 cos() . tan() 及 像 asin() 
XB 3E R 

3. 然而 要 注意 的 是 Python 并 不 支持 无 限 精 度 。 tan(r / 4) 将 返回 1.6 ， 而 不 是 


0.99999999999999989 o 


布尔 上 下 文 环境 中 的 数值 
ZÆ fase [R] ， 非 需 值 是 true [ 真 ] 。 


可 以 在 if 这 样 的 布尔 类 型 上 下 文 环境 中 使 用 数值 。 需 值 是 false [ 假 ] ， 非 需 值 是 
true [E] 。 


if anything: 

print("yes, it's true") 
else: 

print("no, it's false") 


yes, it's true 
>>> is it true(-1) 
yes, it's true 
>>> is it true(0) 
no, it's false 


yes, it's true 

>>> is it true(0.0) 
no, it's false 

>>> import fractions 


yes, it's true 
>>> is it true(fractions.Fraction(0O, 1)) 
no, it's false 


1， 您 知道 可 以 在 Python 交互 式 Shell 中 定义 自己 的 画 数 吗 ? 只 需 在 每 行 的 结尾 按 回 车 键 
， 然 后 在 某 一 空 行 按 回 丰 键 结束 。 

2. 在 布尔 类 型 上 下 文 环境 中 ， 非 雳 整数 为 真 ; 需 为 假 。 

3， 非 需 浮 点 数 为 真 ; 0.0 为 假 。 请 千 万 小 心 这 一 点 上 如果 有 轻微 的 四 舍 五 人 偏差 (正如 在 
前 面 小 节 中 看 到 的 那样 ， 这 并 非 不 可 能 的 事情 ) ， 那 么 Python 将 测试 0.0000000000001 
而 不 是 0 ， 并 将 返回 一 个 True 值 。 

4. 分 数 也 可 在 布尔 类 型 上 下 文 环境 中 使 用 。 无 论 n 为 何 值 ， Fraction(6, n) 为 假 。 所 有 
其 它 分 数 为 真 。 


列表 


列表 是 Python 的 主力 数据 类 型 。 当 提 到 “列表 "时 ， 您 脑海 中 可 能 会 闪现 “必须 进一步 声明 大 
小 的 数组 ， 只 能 包含 同一 类 对 象 * 等 想法 。 千 万 别 这 人 么 想 。 列 表 比 那 要 酷 得 多 。 


Python 中 的 列表 类 似 Perl 5 中 的 数组 。 在 Perl 5 中 ， 存 储 数 组 的 变量 总 是 以 字符 o 
开头 ; 在 Python F, anama, Python 仅 在 内 部 对 数据 类 型 进行 跟踪 。 





Python 中 的 列表 更 像 Java 中 的 数组 (尽管 可 以 把 列表 当做 生命 中 所 需要 的 一 切 来 使 
用 )。 一 个 更 好 的 比喻 可 能 是 ArrayList 类 ， 该 类 可 以 容纳 任何 对 象 ， 并 可 在 添加 新 元 
素 时 进行 动态 拓展 。 


创建 列表 


列表 创建 非常 轻松 : 使 用 中 括号 包 囊 一 系列 以 逗号 分 割 的 值 即 可 。 


>>> a8 list 
['a', 'b', 'mpilgrim', 'z', 'example'] 


USO 
'example' 
'example' 


'mpilgrim' 


1. 首先 ， 创 建 一 个 包含 5 个 元 素 的 列表 。 要 注意 的 是 它们 保持 了 最 初 的 顺序 。 这 并 不 是 偶 
然 的 。 列 表 是 元 素 的 有 序 集合 。 

2. 列表 可 当做 以 需 为 基点 的 数组 使 用 。 非 空 列 表 的 首 个 元 素 始 终 是 a_list[o] o 

3. 该 5 元 素 列表 的 最 后 一 个 元 素 是 a_list[4] ， 因 为 列表 (索引 ) 总 是 以 需 为 基点 的 。 

4. 使 用 负 索 引 值 可 从 列表 的 尾部 向 前 计数 访问 元 素 。 任 何 非 空 列表 的 最 后 一 个 元 素 总 是 
a list[-1] o 

5， 如 果 负 数 合 你 混淆 ， 可 将 其 视 为 如 下 方式 : a list[- n ] == a list[len(a list) - n ] 
。 因 此 在 此 列表 中 ， a_list[-3] == a_list[5 - 3] == a list[2] e 


列表 切片 
a list[0] 是 列表 的 第 一 个 元 素 。 
定义 列表 后 ， 可 从 其 中 获取 任何 部 分 作为 新 列表 。 该 技术 称 为 对 列表 进行 切片 。 


>>> 8 list 
['a', 'b', 'mpilgrim', 'z', 'example'] 
['b', 'mpilgrim'] 


['b', 'mpilgrim', 'z'] 


['a', 'b', 'mpilgrim'] 

['a', 'b', 'mpilgrim'] 

['z', 'example'] 

['a', 'b', 'mpilgrim', 'z', 'example'] 


1. 通过 指定 两 个 素 引 值 ， 可 以 从 列表 中 获取 称 作 " 切 片 " 的 某 个 部 分 。 返 回 值 是 一 个 新 列表 ， 
它 包含 列表 (?? 切 片 ) 中 所 有 元 素 ， 按 顺序 从 第 一 个 切片 索引 开始 〈 本 例 中 为 
a_list[1] ) ， 截 止 但 不 包含 第 二 个 切片 索引 (本 例 中 的 a 1ist[3] ) 。 

2， 如 果 切 片 索引 之 一 或 两 者 均 为 负数 ， 切 片 操 作 仍 可 进行 。 如 果 有 帮助 的 话 ， 您 可 以 这 么 
思考 : 自 左 向 右 读 取 列 表 ， 第 一 个 切片 索引 指明 了 想 要 的 第 一 个 元 素 ， 第 二 个 切片 索引 
明了 第 一 个 不 想 要 的 元 素 。 返 回 值 是 两 者 之 间 的 任何 值 。 between. 

3， 列 表 是 以 需 为 起 点 的 ， 因 此 a list[o:s] 返回 列表 的 头 三 个 元 素 ， 从 a_list[e] 开始 ， 
截止 到 但 不 包括 a_list[3] 。 

4. 如果 左 切 片 索引 为 需 ， 可 以 将 其 留 空 而 将 需 隐 去 。 因 此 a_list[:3] 与 a_list[9:3] 是 
完全 相同 的 ， 因 为 起 点 ORAT. 

5 同样， 如 果 右 切片 索引 为 列表 的 长 度 ， 也 可 以 将 其 留 空 。 因 此 a_list[3:] 5 
a_list[3:5] 是 完全 相同 的 ， 因 为 该 列表 有 五 个 元 素 。 此 多 有 个 好 玩 的 对 称 现象 。 在 这 
个 五 元 素 列表 中 ， a list[:3] 返回 头 三 个 元 素 ， 而 a list[3:] 返回 最 后 两 个 元 素 。 事 
实 上 ， 无 论 列表 的 长 度 是 多 少 ，a_1ist[: n ] 将 返回 关 n 个 元 素 ， 而 a_list[ n :] 
返回 其 余部 分 。 

6. 如 果 两 个 切片 素 引 都 留 空 ， 那 么 将 包括 列表 所 有 的 元 素 。 但 该 返回 值 与 最 初 的 a_list 
变量 并 不 一 样 。 它 是 一 个 新 列表 ， 只 不 过 恰好 拥有 完全 相同 的 元 素 而 已 。 a_list[:] 是 
对 列表 进行 复制 的 一 条 捷径 。 


向 列表 中 新 增 项 
有 四 种 方法 可 用 于 向 列表 中 增加 元 素 。 


>>> a list = ['a'] 


[| aao vg 


>>> a list 
['a', 2.0, 3, True] 


>>> a list 
['a", 2.0, 3, True, 'four', 'Q'] 


>>> a list 
Loim 'a', 2.0, 3, True, 'four', *Q'] 


1. 


+ 运算 符 连接 列表 以 创建 一 个 新 列表 。 列 表 可 包含 任何 数量 的 元 素 ; 没有 大 小 限制 ( 除 
了 可 用 内 存 的 限制 ) 。 然 而 ， 如 果 内 存 是 个 问题 ， 那 就 必须 知道 在 进行 连接 操作 时 ， 将 
在 内 存 中 创建 第 二 个 列表 。 在 该 情况 下 ， 新 列表 将 会 立即 被 赋值 给 已 有 变量 alist o 
因此 ， 实 际 上 该 行 代码 包含 两 个 步骤 一 连接 然后 赋值 一 当 人 处理 大 型 列表 时 ， 该 操作 可 
能 (暂时 ) 消耗 大 量 内 存 。 

列表 可 包含 任何 数据 类 型 的 元 素 ， 单 个 列表 中 的 元 素 无 须 全 为 同一 类 型 。 下 面 的 列表 中 
包含 一 个 字符 串 、 一 个 浮 点 数 和 一 个 整数 。 

append() 方法 向 列表 的 尾部 添加 一 个 新 的 元 素 。 (现在 列表 中 有 四 种 不 同 数据 类 

型 1) 


.列表 是 以 类 的 形式 实现 的 。“ 创 建 " 列 表 实 际 上 是 将 一 个 类 实例 化 。 因 此 ， 列 表 有 多 种 方法 


可 以 操作 。 extend() 方法 只 接受 一 个 列表 作为 参数 ， 并 将 该 参数 的 每 个 元 素 都 添加 到 原 
有 的 列表 中 。 

insert() 方法 将 单个 元 素 插 和 人 到 列表 中 。 第 一 个 参数 是 列表 中 将 被 顶 离 原 位 的 第 一 个 元 
素 的 位 置 素 引 。 列 表 中 的 元 素 并 不 一 定 要 是 唯一 的 ; 比如 说 : 现 有 两 个 各 自 独 立 的 元 
素 ， 其 值 均 为 'a :， 第 一 个 元 素 alisto] 以 及 最 后 一 个 元 素 a_list[6] o 


'a list .insert(0，value ) 就 像 是 Perl 中 的 unshift() 画 数 。 它 将 一 个 元 素 添加 到 列表 
的 头 部 ， 所 有 其 它 的 元 素 都 被 顶 理 原先 的 位 置 以 腾 出 空间 。 








让 我 们 进一步 看 看 append() 和 extend() 的 区 别 。 


>>> a_list = ['a', 'b', 'c'] 


>>> a list 


Las "bus Uc Jta os 'e', "EU 


6 
>>> a list[-1] 


>>> a list 


Lan ufo en. Ug] us- 'e', CRIS [gu "Dus JEU 


7 
>>> a list[-1] 


1. 


Leey dg Cab] 


extend() 方法 只 接受 一 个 参数 ， 而 该 参数 总 是 一 个 列表 ， 并 将 列表 a list 中 所 有 的 元 
素 都 添加 到 该 列表 中 。 


2.， 如果 开 始 有 个 3 元 素 列 表 ， 然 后 将 它 和 与 另 一 个 3 元 素 列 表 进 行 extend 操作 ， 结 果 是 将 获 
得 一 个 6 元 素 列表 。 

3， 另 一 方面 ， append() 方法 只 接受 一 个 参数 ， 但 可 以 是 任何 数据 类 型 。 在 此 ， 对 一 个 3 
元 素 列 表 调 用 append() 方法 。 

4. 如果 开 始 的 时 候 有 个 6 元 素 列 表 ， 然 后 将 一 个 列表 append [添加 ] 上 去 ， 结 果 就 会 .…… 
得 到 一 个 7 元 素 列 表 。 为 什么 是 7 个 ? 因为 最 后 一 个 元 素 (刚刚 append [添加 ] 的 元 
R) 本 身 是 个 列表 。 列 表 可 包含 任何 类 型 的 数据 ， 包 括 其 它 列表 。 这 可 能 是 你 所 需要 的 
结果 ， 也 许 不 是 。 但 如 果 这 就 是 你 想 要 的 ， 那 这 就 是 你 所 得 到 的 。 


在 列表 中 检索 值 


>>> a list = ['a', 'b', 'new', 'mpilgrim', 'new'] 
2 

True 

>>> 'c' in a list 

False 

3 

2 


Traceback (innermost last): 
File "«interactive input»", line 1, in ?ValueError: list.index(x): x not in list 


1， 如 你 所 期 望 ， count() 方法 返回 了 列表 中 某 个 特定 值 出 现 的 次 数 。 

2， 如 果 你 想 知道 的 是 某 个 值 是 否 出 现在 列表 中 ， in 运算 符 将 会 比 使 用 count() 方法 要 
略 快 一 些 。 in 运算 符 总 是 返回 True EX False ; 它 不 会 告诉 你 该 值 出 现在 什么 位 置 。 

3， 如 果 想 知道 某 个 值 在 列表 中 的 精确 位 置 ， 可 调用 inex) 方法 。 尽 管 可 以 通过 第 二 个 参 
数 (以 0 为 基点 的 ) 索引 值 来 指定 起 点 ， 通 过 第 三 个 参数 (ELO 基点 的 ) 索引 来 指定 搜 
素 终 点 ， 但 缺 省 情况 下 它 将 搜索 整个 列表 ， 

4. index() 方法 将 查找 某 值 在 列表 中 的 第 一 次 出 现 。 在 该 情况 下 ， 'new， 在 列表 中 出 现 了 
两 次 ， 分 别 为 a_list[2] 和 a_list[4] ， 但 index() 方法 将 只 返回 第 一 次 出 现 的 位 置 
索引 值 。 

5， 可 能 出 平 您 的 预期 ， 如 果 在 列表 中 没有 找到 该 值 ， index() 方法 将 会 引发 一 个 例外 。 

等 等 ， 什 么 ?是 这 样 的 : 如 果 没 有 在 列表 中 找到 该 值 ， index() 方法 将 会 引发 一 个 例外 。 这 

是 Python 语言 最 显著 不 同 之 处 ， 其 它 多 数 语 言 将 会 返回 一 些 无 效 的 索引 值 RE -1 ) 。 当 

然 ， 一 开始 这 一 点 看 起 来 比较 讨厌 ， 但 我 想 您 会 逐渐 欣赏 它 。 这 意味 着 您 的 程序 将 会 在 问题 

的 源头 处 骨 溃 ， 而 不 是 之 后 奇怪 地 、 默 默 地 骨 溃 。 请 记 住 ， -1 是 合法 的 列表 索引 值 。 如 果 

index() 方法 返回 -1 ， 可 能 会 导致 调整 过 程 变 得 不 那么 有 趣 ! 


从 列表 中 删除 元 素 


列表 永远 不 会 有 缝隙 。 


列表 可 以 自动 拓展 或 者 收缩 。 您 已 经 看 到 了 拓展 部 分 。 也 有 几 种 方法 可 从 列表 中 删除 元 素 。 


>>> a list = ['a', 'b', 'new', 'mpilgrim', 'new'] 
>>> a list[1] 
Ugo 


>>> a8 list 
['a', 'new', 'mpilgrim', 'new'] 


'new' 


1， 可 使 用 dei 语句 从 列表 中 删除 某 个 特定 元 素 。 
2. MRR5 1 之 后 再 访问 索引 1 将 不 会 导致 错误 。 被 删除 元 素 之 后 的 所 有 元 素 将 移动 
它们 的 位 置 以 “填补 ?被 删除 元 素 所 产生 的 "缝隙 ”。 


不 知道 位 置 索 引 ? 这 不 成 问题 ， 您 可 以 通过 值 而 不 是 索引 删除 元 素 。 


>>> a_list 
['a', 'mpilgrim', 'new'] 


>>> 8 list 
['a', 'mpilgrim'] 
>>> a list.remove('new') 
Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
ValueError: list.remove(x): x not in list 


1. 还 可 以 通过 remove) 方法 从 列表 中 删除 某 个 元 素 。 remove() 方法 接受 一 个 value & 
数 ， 并 删除 列表 中 该 值 的 第 一 次 出 现 。 同 样 ， 被 删除 元 素 之 后 的 所 有 元 素 将 会 将 索引 位 
置 下 移 ， 以 “填补 缝隙 "”。 列 表 永 远 不 会 有 " 颖 阶 ”。 

2. 您 可 以 尽情 地 调用 remove) 方法 ， 但 如 果 试 图 删除 列表 中 不 存在 的 元 素 ， 它 将 引发 一 
个 例外 。 


Removing ltems From A List: Bonus Round 


另 一 有 趣 的 列表 方法 是 pop() o pop) 方法 是 从 列表 删除 元 素 的 另 一 方法 ， 但 有 点 变化 。 


>>> a list = ['a', 'b', 'new', 'mpilgrim'] 


'mpilgrim' 
>>> a8 list 
[as "ba 'new'] 


as 

>>> a_list 

kan 'new'] 
>>> a_list.pop() 
'new' 

>>> a_list.pop() 
tagt 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
IndexError: pop from empty list 


1， 如 果 不 带 参数 调用 ， pop() 列表 方法 将 删除 列表 中 最 后 的 元 素 ， 并 返回 所 删除 的 值 。 

2， 可 以 从 列表 中 pop [弹出 ] 任何 元 素 。 只 需 传 给 pop() 方法 一 个 位 置 素 引 值 。 它 将 删除 
该 元 素 ， 将 其 后 所 有 元 素 移 位 以 “填补 缝隙 "然后 返回 它 删 除 的 值 。 

3， 对 空 列 表 调 用 pop() 将 会 引发 一 个 例外 。 


不 带 参 数 调 用 的 pop() 列表 方法 就 像 Perl 中 的 pop) 画 数 。 它 从 列表 中 删除 最 后 一 
个 元 素 并 返回 所 删除 元 素 的 值 。Perl 还 有 另 一 个 函数 shift() ， 可 用 于 删除 第 一 个 元 素 
并 返回 其 值 ; 在 Python 中 ， 该 范 数 相当 于 ca list .pop(0) o 


布尔 上 下 文 环境 中 的 列表 
空 列表 为 假 ; 其 它 所 有 列表 为 真 。 
可 以 在 if 这 样 的 布尔 类 型 上 下 文 环 境 中 使 用 列表 。 


>>> def is it true(anything): 
if anything: 
print("yes, it's true") 
else: 
print("no, it's false") 
no, it's false 


yes, it's true 


yes, it's true 


1. 在 布尔 类 型 上 下 文 环境 中 ， 空 列表 为 假 值 。 
2. 任何 至 少 包含 一 个 上 元 素 的 列表 为 真 值 。 
3. 任何 至 少 包 含 一 个 上 元 素 的 列表 为 真 值 。 元 素 的 值 无 关 紧 要 。 


元 组 
元 素 是 不 可 变 的 列表 。 一 旦 创建 之 后 ， 用 任何 方法 都 不 可 以 修改 元 素 。 


>>> a_tuple 
('a', 'b', 'mpilgrim', 'z', 'example') 


ia 
'example' 


('b', 'mpilgrim') 


1. 元 组 的 定义 方式 和 列表 相同 ， 除 了 整个 元 素 的 集合 都 用 圆 括 号 ， 而 不 是 方 括 号 闭合 。 
2. 和 列表 一 样 ， 元 组 的 元 素 都 有 确定 的 顺序 。 元 组 的 素 引 也 是 以 需 为 基点 的 ， 和 列表 一 
样 ， 因此 非 空 元 组 的 第 一 个 元 素 总 是 a tuple[0] o 


3， 负 的 索引 从 元 组 的 尾部 开始 计数 ， 这 和 列表 也 是 一 样 的 。 
4， 和 列表 一 样 ， 元 组 也 可 以 进行 切片 操作 。 对 列表 切片 可 以 得 到 新 的 列表 ; 对 元 组 切片 可 
以 得 到 新 的 元 组 。 


元 组 和 列表 的 主要 区 别 是 元 组 不 能 进行 修改 。 用 技术 术语 来 说 ， 元 组 是 不 可 变更 的 。 从 实践 
的 角度 来 说 ， 没 有 可 用 于 修改 元 组 的 方法 。 列 表 有 像 append() 、 extend() 、 

insert() 、 remove() 和 pop) 这 样 的 方法 。 这 些 方法 ， 元 组 都 没有 。 可 以 对 元 组 进行 切 

片 操作 (因为 该 方法 创建 一 个 新 的 元 组 ) ， 可 以 检查 元 组 是 否 包 含 了 特定 的 值 (因为 该 操作 

不 修改 元 组 ) ， 还 可 以 .…… 就 那么 多 了 。 


# continued from the previous example 
>>> a tuple 
('a', 'b', 'mpilgrim', 'z', 'example') 


Traceback (innermost last): 
File "«interactive input»", line 1, in ?AttributeError: 'tuple' object has no attribute 


Traceback (innermost last): 
File "«interactive input»", line 1, in ?AttributeError: 'tuple' object has no attribute 





1. 无 法 向 元 组 添加 元 素 。 元 组 没有 append() EX extend() 方法 。 
2. 不 能 从 元 组 中 删除 元 素 。 元 组 没有 remove() 或 pop() 方法 。 
3， 可 以 在 元 组 中 查找 元 素 ， 由 于 该 操作 不 改变 元 组 。 

4. 还 可 以 使 用 in 运算 符 检查 某 元 素 是 否 存在 于 元 组 中 。 


那么 元 组 有 什么 好 处 呢 ? 


。 元 组 的 速度 比 列表 更 快 。 如 果 定 义 了 一 系列 常量 值 ， 而 所 需 做 的 仅 是 对 它 进 行 志 历 ， 那 
么 请 使 用 元 组 蔡 代 列表 。 

。 对 不 需要 改变 的 数据 进行 “ 写 保 折 ” 将 使 得 代码 更 加 安全 。 使 用 元 组 蔡 代 列表 就 像 是 有 一 条 
隐 含 的 assert 语句 显示 该 数据 是 常量 ， 特 别 的 想法 (及 特别 的 功能 ) 必须 重 写 。 
(??) 

。 一 些 元 组 可 用 作 字 典 键 (特别 是 包含 字符 串 、 数 值 和 其 它 元 组 这 样 的 不 可 变数 据 的 元 
组 ) 。 列 表 永 远 不 能 当做 字典 键 使 用 ， 因 为 列表 不 是 不 可 变 的 。 








元 组 可 转换 成 列表 ， 反 之 亦 然 。 内 建 的 tuple() 加 ” 数 接受 一 个 列表 参数 ， 并 返回 一 个 
包含 同样 元 素 的 元 组 ， 而 list) 冰 数 接受 一 个 元 组 参数 并 返回 一 个 列表 。 从 效果 上 
看 ， tuple() 冻结 列表 ， 而 1ist() 融化 元 组 。 





布尔 上 下 文 环境 中 的 元 组 


可 以 在 if 这 样 的 布尔 类 型 上 下 文 环境 中 使 用 元 组 。 


>>> def is it true(anything): 
if anything: 
print("yes, it's true") 
else: 
print("no, it's false") 
no, it's false 
yes, it's true 
yes, it's true 
«class 'bool'» 


>>> type((False,)) 
«class 'tuple'» 


1. 在 布尔 类 型 上 下 文 环境 中 ， 空 元 组 为 假 值 。 

2. 任何 至 少 包含 一 个 上 元 素 的 元 组 为 真 值 。 

3. 任何 至 少 包含 一 个 上 元 素 的 元 组 为 真 值 。 元 素 的 值 无 关 紧 要 。 不 过 此 处 的 逗号 起 什么 作 
用 呢 ? 

4. 为 创建 单元 素 元 组 ， 需 要 在 值 之 后 加 上 一 个 吾 号 。 没 有 至 号 ，Python 会 假定 这 只 是 一 对 
额外 的 圆 括号 ， 哩 然 没 有 害处 ， 但 并 不 创建 元 组 。 


同时 赋 多 个 值 
以 下 是 一 种 很 酷 的 编程 捷径 : 在 Python 中 ， 可 使 用 元 组 来 一 次 赋 多 值 。 


>>> v = ('a', 2, True) 


1. v 是 一 个 三 元 素 的 元 组 ， 而 (x, y, z) REELTXzByLAm,. RHEHm—TdMdAE 
一 个 将 会 把 v 中 的 每 个 值 按 顺 序 赋值 给 每 一 个 变量 。 


该 特性 有 多 种 用 途 。 假 设 需要 将 某 个 名 称 指定 某 个 特定 范围 的 值 。 可 以 使 用 内 建 的 range() 
豆 数 进行 多 变量 赋值 以 快速 地 进行 连续 变量 赋值 。 


0 
>>> TUESDAY 


1 
>>> SUNDAY 
6 


1. 内 建 的 range() 范 数 构造 了 一 个 整数 序列 。 (从 技术 上 来 说 ， range() KAUA [B] kB 
不 是 列表 也 不 是 元 组 ， 而 是 一 个 迭代 器 ， 但 稍 后 您 将 学 到 它们 的 区 别 。) MONDAY 、 


TUESDAY 、 WEDNESDAY 、 THURSDAY 、 FRIDAY 、 SATURDAY 和 suNDAY 是 您 所 定义 的 
变量 。 (本 例 来 自 于 calendar 模块 ， 该 短小 而 有 趣 的 模块 打印 日 历 ， 有 点 像 UNIX 程 
序 cal 。 该 calendar M Lo 

2， 现 在 ， 每 个 变量 都 有 其 MONDAY 为 0， TUESDAY 为 1， 如 此 类 推 。 


还 可 以 使 用 多 变量 赋值 创建 返回 多 值 的 函数 ， 只 需 返 回 一 个 包含 所 有 值 的 元 组 。 调 用 者 可 将 
返回 值 视 为 一 个 简单 的 元 组 ， 或 将 其 赋值 给 不 同 的 变量 。 许 多 标准 Python 类 库 这 么 干 ， 包 括 
在 下 一 章 将 学 到 的 os 模块 。 


集合 
m 

Eset 是 装 有 独特 值 的 无 序 " 袋 子 "。 一 个 简单 的 集合 可 以 包含 任何 数据 类 型 的 值 。 如 果 有 两 
个 集合 ， 则 可 以 执行 像 联 合 、 交 集 以 及 集合 求 差 等 标准 集合 运算 。 


创建 集合 
重 中 之 重 。 创 建 集合 非常 简单 。 


>>> 8a set 


{1} 
<class 'set'> 


>>> a_set 


{1, 2} 


1， 要 创建 只 包含 一 个 值 的 集合 ， 公 需 将 该 值 放置 于 花 括 号 之 间 。 (0). 
2. 实际 上 ， 集 合 以 类 的 形式 实现 ， 但 目前 还 无 须 考 虑 这 一 点 。 
3， 要 创建 多 值 集合 ， 请 将 值 用 至 号 分 开 ， 并 用 花 括号 将 所 有 值 包 陡 起 来 。 


还 可 以 列表 为 基础 创建 集合 


>>> a list = ['a', 'b', 'mpilgrim', True, False, 42] 
['a', False, 'b', True, 'mpilgrim', 42) 


['a', 'b', 'mpilgrim', True, False, 42] 


. 要 从 列表 创建 集合 ， 可 使 用 set() 画 数 。 (懂得 如 何 实现 集合 的 学 究 可 能 指出 这 dde 
JtT^iàEJSFHÉECENTM, miei X otf 3:06. oe 学 到 其 
中 的 区 别 。 目 前 而 言 ， 仅 需 知道 set() 行为 与 画 数 类 似 ， 以 及 它 返 回 一 个 集合 
Ld ca e uL A 
的 ， 集 合 是 无 序 的 。 该 集合 并 不 记得 用 于 创建 它 的 列表 中 元 素 的 最 初 顺序 。 如 果 向 集合 
中 添加 元 素 ， 它 也 不 会 记得 添加 的 顺序 。 
3， 初 始 的 列表 并 不 会 发 生变 化 。 


还 没有 任何 值 ? 没 有 问题 。 可 以 创建 一 个 空 的 集合 


set() 
«class 'set'» 
0 


>>> type(not sure) 
«class 'dict'» 


1， 要 创建 空 集合 ， 可 不 带 参 数 调用 set() o 

2， 打 印 出 来 的 空 集合 表现 形式 看 起 来 有 点 儿 怪 。 也 许 ， 您 期 望 看 到 一 个 G E ? 该 符号 表 
示 一 个 空 的 字典 ， 而 不 是 一 个 Pra 。 本 章 稍 后 您 将 学 到 关于 字典 的 内 容 。 

3. 尽管 打印 出 的 形式 奇怪 ， 这 确实 是 一 个 集合 .…… 

4. ...... 同时 该 集合 没有 任何 成 员 。 

5， 由 于 从 Python 2 治 袭 而 来 历史 的 古怪 规定 ， 不 能 使 用 两 个 花 括号 来 创建 空 集合 。 该 操作 
实际 创建 一 个 空 字典 ， 而 不 是 一 个 空 集合 。 


修改 集合 
有 两 种 方法 可 向 现 有 集合 中 添加 值 : add() 方法 和 update() 方法 。 
>>> a_set = {1, 2} 


>>> a_set 
{1 


>>> a_set 
(12 AY 


— 


add() 方法 接受 单个 可 以 是 任何 数据 类 型 的 参数 ， 并 将 该 值 添 加 到 集合 之 中 。 

该 集合 现在 有 三 个 成 员 了 

3. 集合 是 装 唯一 值 的 袋子 。 如 果 试 国 添加 一 个 集合 中 已 有 的 值 ， 将 不 全 发 生 任何 事情 。 将 
不 会 引发 一 个 错误 ; 只 是 一 条 空 操作 。 

4. 该 集合 仍然 ee 


N 


>>> a_set = {1, 2, 3} 


tip 2 r O 
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1. update() 方法 仅 接受 一 个 集合 作为 参数 ， 并 将 其 所 有 成 员 添加 到 初始 列表 中 。 其 行为 方 
式 就 像 是 对 参数 集合 中 的 每 个 成 员 调 用 ado 方法 。 

2. 由 于 集合 不 能 包含 重复 的 值 ， 因 此 重复 的 值 将 会 被 忽略 。 

3. 实际 上 ， 可 以 带 任何 数量 的 参数 调用 update() 方法 。 如 果 调 用 时 传递 了 两 个 集合 ， 
update() 将 会 被 每 个 集合 中 的 每 个 成 员 添 加 到 初始 的 集合 当中 (丢弃 重复 值 ) 。 

4. update() 方法 还 可 接受 一 些 其 它 数据 类 型 的 对 象 作为 参数 ， 包 括 列 表 。 如 果 调 用 时 传 入 
列表 ， update() 将 会 把 列表 中 所 有 的 元 素 添 加 到 初始 集合 中 。 


从 集合 中 删除 元 素 


有 三 种 方法 可 以 用 来 从 集合 中 删除 某 个 值 。 前 两 种 ， discard() 和 remove() 有 细微 的 差 


ca 
Tto 


>>> a set = (1, 3, 6, 10, 15, 21, 28, 36, 45} 
>>> 8a set 


{1, 3, 36, 6, 10, 45, 15, 21, 28} 


- 


>>> 8a set 
(ue 3 96 07S AbrEET 52217228) 


>>> 8a set 
(8137367 867915 815796212281 


>>> a set 
(81595975967 8679457951572528). 


Traceback (most recent call last): 


File "«stdin»", line 1, in «module» 
KeyError: 21 


1. discard() 接受 一 个 单 值 作为 参数 ， 并 从 集合 中 删除 该 值 。 

2. 如果 针 对 一 个 集合 中 不 存在 的 值 调用 discard() 方法 ， 它 不 进行 任何 操作 。 不 产生 错 
误 ; 只 是 一 条 空 指令 。 

3. remove() 方法 也 接受 一 个 单 值 作为 参数 ， 也 从 集合 中 将 其 删除 。 

4. 区别 在 这 里 : 如 果 该 值 不 在 集合 中 ， remove() 方法 引发 一 个 keyError 例外 。 


就 像 列 表 ， 集 合 也 有 个 pop() 方法 。 
>>> a_set = {1, 3, 6, 10, 15, 21, 28, 36, 45} 


>>> a_set.pop() 
>>> a_set.pop() 


>>> a_set 
(6, 10, 45, 15, 21, 28} 


>>> 8a set 
set() 


Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
KeyError: 'pop from an empty set' 


1. pop() 方法 从 集合 中 删除 某 个 值 ， 并 返回 该 值 。 然 而 ， 由 于 集合 是 无 序 的 ， 并 没有 "最 后 
一 个 "和 值 的 概念 ， 因 此 无 法 控制 删除 的 是 哪 一 个 值 。 它 基本 上 是 随机 的 。 

2. clea() 方法 删除 集合 中 所 有 的 值 ， 留 下 一 个 空 集合 。 它 等 价 于 aset = set() ， 该 语 
句 创 建 一 个 新 的 空 集合 ， 并 用 之 覆盖 aset 变量 的 之 前 的 值 。 


3， 试 图 从 空 集合 中 弹出 某 值 将 会 


弟 见 集合 操作 


Python 的 集合 类 型 支持 几 种 常见 


引发 ”keyError 例外 。 


的 运算 。 


>>> a_set = {2, 4, 5, 9, 12, 21, 30, 51, 76, 127, 195} 


True 
>>> 31 in a set 
False 
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{195, 4, 76, 51, 30, 127} 


a, 2, 4, 6. 3, 76, 15, d7, 18, 195, 127, 30, 519 


.要 检测 某 值 是 否 是 集合 的 成 员 


1 

2 union() 方法 返回 一 个 新 集 
3. intersection() 方法 返回 
4 


， 可 使 用 in 运算 符 。 其 工作 原理 和 列表 的 一 样 。 
合 ， 其 中 装着 在 两 个 集合 中 出 现 的 元 素 。 
Rein 其 中 装着 同时 在 两 个 集合 中 出 现 的 所 有 元 素 。 


difference() 方法 返回 的 新 集合 中 ， 装 着 所 有 在 a_set 出 现 但 未 在 b set 中 的 元 


素 。 


5. symmetric difference() 方法 返 一 个 新 集合 ， 其 中 装 志 着 所 有 5 只 在 其 中 一 个 集合 中 出 现 


的 元 素 。 
这 三 种 方法 是 对 称 的 。 


# continued from the previous 


example 


{3, 1, 195, 4, 6, 8, 76, 15, 17, 18, 51, 30, 127} 


True 


True 


True 


False 


1. aset 与 b_set 的 对 称 差分 看 起 来 和 bse 与 ase 的 对 称 差 分 不 同 ， 但 请 记 住 : 
合 是 无 序 的 。 任 何 两 个 包含 所 有 同样 值 〈 无 一 遗漏 ) 的 集合 可 认为 是 相等 的 。 
2. 而 这 正 是 这 里 发 生 的 事情 。 不 要 被 Python Shell 对 这 些 集 合 的 输出 形式 所 愚弄 了 。 它 们 
包含 相同 的 值 ， 因 此 是 相等 的 。 


3， 对 两 个 集合 的 Union [并 集 ] 操作 也 是 对 称 的 。 

4， 对 两 个 集合 的 Intersection [交集 ] 操作 也 是 对 称 的 。 

5， 对 两 个 集合 的 Difference [ 求 差 ] 操作 不 是 对 称 的 。 这 是 有 意义 的 ; 它 类 似 于 从 一 个 数 中 
减 去 另 一 个 数 。 操 作 数 的 顺序 会 导致 结果 不 同 。 


最 后 ， 有 几 个 您 可 能 会 问 到 的 问题 。 


>>> a set = (1, 2, 3} 
>>> b set- (1, 2, 3, 4} 
True 

True 


>>> a set.issubset(b set) 
False 

>>> b set.issuperset(a set) 
False 


1. aset 是 b set 的 子 集 一 所 有 a set. 的 成 员 均 为 b set. 的 成 员 。 

2. 同样 的 问题 反 过 来 说 ， bset 是 a set BJ R, [A a set 的 所 有 成 员 均 为 b_set 
的 成 员 。 

3. 一 旦 向 aset 添加 一 个 未 在 b set 中 出 现 的 值 ， 两 项 测试 均 返 回 False o 


布尔 上 下 文 环境 中 的 集合 
可 在 if 这 样 的 布尔 类 型 上 下 文 环境 中 使 用 集合 。 


>>> def is it true(anything): 
if anything: 
print("yes, it's true") 
else: 
print("no, it's false") 
no, it's false 


yes, it's true 


yes, it's true 


1. 在 布尔 类 型 上 下 文 环境 中 ， 空 集合 为 假 值 。 
2. 任何 至 少 包含 一 个 上 元 素 的 集合 为 真 值 。 
3. 任何 至 少 包含 一 个 上 元 素 的 集合 为 真 值 。 元 素 的 值 无 关 紧 要 。 


字典 


字典 是 键 值 对 的 无 序 集合 。 向 字典 添加 一 个 键 的 同时 ， 必 须 为 该 键 增添 一 个 值 。 (之 后 可 随 
时 修改 该 值 。) Python 的 字典 为 通过 键 获取 值 进行 了 优化 ， 而 不 是 反 过 来 。 


Python 中 的 字典 与 Perl 5 中 的 hash [ 散 列 ] 类 似 。 在 Perl 5 中 ， 散 列 存储 的 变量 总 是 
以 一 个 % 符 开 头 。 在 Python 中 ， 变 量 可 以 随意 命名 ， 而 Python 内 部 跟踪 其 数据 类 


型 。 





Hl 








创建 字典 


创建 字典 非常 简单 。 其 语法 与 集合 的 类 似 ， 但 应 当 指定 键 值 对 而 不 是 值 。 有 了 字典 后 ， 可 以 
通过 键 来 查找 值 。 


>>> 8 dict 
('server': 'db.diveintopython3.org', 'database': 'mysql'j 


'db.diveintopython3.org' 
'mysql' 
Traceback (most recent call last): 


File "«stdin»", line 1, in «module» 
KeyError: 'db.diveintopython3.org' 


1 首先， 通过 将 两 个 字典 项 指定 给 a dict 变量 创建 了 一 个 新 字典 。 每 个 字典 项 都 是 一 组 
键 值 对 ， 整 个 字典 项 集合 都 被 大 括号 包 应 在 内 。 

2. 'server' 为 键 ， 通 过 a dict['server'] 引用 的 关联 值 为 'db.diveintopython3.org' o 

3. 'database' 为 键 ， 通 过 E database'] 引用 的 关联 值 为 'mysql' o 

4. 可 以 通过 键 获取 值 ， 但 不 能 通过 值 获取 键 。 因 此 a dict['server'] 为 
'db.diveintopython3.org' , 而 a . dict['db.diveintopython3.org'] 会 引发 例外 ， 因为 
'db.diveintopythonS3.org' 并 不 是 键 。 


字典 没有 预定 义 的 大 小 限制 。 可 以 随时 向 字典 中 添加 新 的 键 值 对 ， 或 者 修改 现 有 键 所 关联 的 
值 。 继 续 前 面 的 例子 : 


>>> 8 dict 
('server': 'db.diveintopython3.org', 'database': 'mysql'j 


>>> 8 dict 
('server': 'db.diveintopython3.org', 'database': 'blog') 


('server': 'db.diveintopythonS3.org', 'user': 'mark', 'database': 'blog'} 


>>> 8 dict 
('server': 'db.diveintopythonS3.org', 'user': 'dora', 'database': 'blog'} 


>>> 8 dict 
[('User': 'mark', 'server': 'db.diveintopython3.org', 'user': 'dora', 'database': 'blog'j 


Bi - — EU 


1. 在 字典 中 不 允许 有 重复 的 键 。 对 现 有 的 键 赋值 将 会 履 盖 旧 值 。 
2， 可 随时 添加 新 的 键 值 对 。 该 语法 与 修改 现 有 值 相 同 。 





3. 新 字典 项 ( 键 为 'user' ， 值 为 'mark' ) 出 现在 中 间 。 在 第 一 个 例子 中 字典 项 
按 顺 序 出 现 是 个 巧合 ; 现在 它们 不 按 顺 序 出 现 同样 也 是 个 

4.， 对 既 有 字典 键 进行 赋值 只 会 用 新 值 蔡 代 旧 值 。 

.该 操作 会 籽 user 键 的 值 改 回 "mark" 吗 ?不 会 ! 仔细 看 看 该 键 一 一 有 个 大 写 的 u 出 现 
在 "user" 中 。 字 典 键 是 区 分 大 小 写 的 ， 因 此 该 语句 创建 了 一 组 新 的 键 值 对 ， 而 不 是 覆 
盖 既 有 的 字典 项 。 对 你 来 说 它们 可 能 是 一 样 的 ， 但 对 于 Python 而 言 它 们 是 完全 不 同 的 。 


c1 


字典 并 非 只 能 用 于 字符 串 。 字 典 的 值 可 以 是 任何 数据 类 型 ， 包 括 整 数 、 布 尔 值 、 任 何 对 象 ， 
其 至 是 其 它 的 字典 。 而 且 就 算 在 同一 字典 中 ， 所 有 的 值 也 无 须 是 同一 类 型 ， 您 可 根据 需要 混 

合 匹 配 。 字 典 的 键 要 严格 得 多 ， 可 以 是 字符 串 、 整 数 和 其 它 一 些 类 型 。 在 同一 字典 中 也 可 混 
合 、 匹 配 使 用 不 同 数据 类 型 的 键 。 


实际 上 ， 您 已 经 在 your first Python program 见 过 一 个 将 非 字符 串 用 作 键 的 字 


SUFFIXES = (1000: ['KB', 'MB', 'GB', 'TB', 'PB', 'EB', 'ZB', 'YB'], 
1024: ['KiB', 'MiB', 'GiB', 'TiB', 'P3B', 'EiB', 'ZiB', 'YiB']} 


让 我 们 在 交互 式 shell 中 剖析 一 下 : 


>>> SUFFIXES = (1900: ['KB', 'MB', 'GB', "TB', 'PB', 'EB', 'ZB', 'YB'], 
1024: ['KiB', 'MiB', 'GiB', 'TiB', 'PiB', 'EiB', 'ZiB', 'YiB']) 


['KiB', 'MiB', 'GiB', 'TiB', 'PiB', 'EiB', 'ZiB', 'YiB'] 


1. 类 似 列表 和 集合 ， len() 画 数 将 返回 字典 中 键 的 数量 。 

2， 而 且 像 列表 和 集合 一 样 ， 可 使 用 in 运算 符 以 测试 某 个 特定 的 键 是 否 在 字典 中 。 

. 1000 是 字典 suFFIXES 的 一 个 键 ; 其 值 为 一 个 8 元 素 列 表 〈 确 切 地 说 ， 是 8 个 字符 
串 ) 。 

4. 同样 ， 1624 是 字典 suFFIXxES 的 键 ; 其 值 也 是 一 个 8 元 素 列表 。 

5. 由 于 suFFIXES[1000] 是 列表 ， 可 以 通过 它们 的 0 基点 索引 来 获取 列表 中 的 单个 元 素 。 


布尔 上 下 文 环境 中 的 字典 
空 字典 为 假 值 ; 所 有 其 它 字 典 为 真 值 。 
可 以 在 if 这 样 的 布尔 类 型 上 下 文 环 境 中 使 用 字典 。 


>>> def is it true(anything): 
if anything: 
print("yes, it's true") 
else: 
print("no, it's false") 


no, it's false 


yes, it's true 


1. 在 布尔 类 型 上 下 文 环境 中 ， 空 字典 为 假 值 。 
2， 至 少 包含 一 个 键 值 对 的 字典 为 真 值 。 


None 


None 是 Python 的 一 个 特殊 常量 。 它 是 一 个 E fo None 与 False PE None 不 是 0 
o» None 不 是 空 字 符 串 。 将 none 与 任何 非 None 的 东西 进行 比较 将 总 是 返回 False o 


None 是 唯一 的 空 值 。 它 有 着 自己 的 数据 类 型 ( NoneType ) o 可 将 None 赋值 给 任何 变量 ， 
但 不 能 创建 其 它 NoneType 对 象 。 所 有 值 为 ”None 变量 是 相等 的 。 


>>> type(None) 
«class 'NoneType '> 
>>> None == False 
False 

>>> None -- 0 
False 

>>> None -- '' 
False 

>>> None -- None 
True 

>>> x = None 

>>> x == None 
True 

>>> y = None 

»»» x E Y 

True 


布尔 上 下 文 环境 中 的 None 
在 布尔 类 型 上 下 文 环 境 中 ， None 为 假 值 ， 而 not None 为 真 值 。 


>>> def is it true(anything): 
if anything: 
print("yes, it's true") 
else: 
print("no, it's false") 


>>> is it true(None) 

no, it's false 

>>> is it true(not None) 
yes, it's true 


Dive Into Python3 


深入 阅读 


e 布尔 运算 

数值 类 型 

e 序列 类 型 

集合 类 型 

映射 类 型 

e fractions [分 数 ] 模块 

* math [数学 ] ”模块 

e PEP 237: 统一 长 整数 和 整数 
PEP 238: 修改 除法 运算 符 


您 在 这 里 : 主页 > 深入 Python 3* 


Chapter 2 内 和 置 数据 类 型 
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Chapter 3 解析 


" Our imagination is stretched to the utmost, not, as in fiction, to imagine things which 
are not really there, but just to comprehend those things which are. " — Richard 
Feynman 


这 一 章节 将 围绕 一 个 非常 强大 的 技术 向 你 介绍 列表 解析 ， 字 典 解析 和 集合 解析 这 三 个 概念 。 
但 是 ， 我 要 先 打 个 岔 介绍 两 个 帮助 你 浏览 本 地 文件 系统 的 模块 


义理 文件 和 目录 


Python 3 带 有 一 个 模块 叫做 os ， 代 表 "操作 系统 (operating system), " os 模块 包含 非常 
多 的 函数 用 于 获取 (和 修改 ) 本 地 目录 、 文 件 进程 、 环 境 变量 等 的 信息 。Python 尽 最 大 的 努力 
在 所 有 支持 的 操作 系统 上 提供 一 个 统一 的 APl， 这 样 你 就 可 以 在 保证 程序 能 够 在 任何 的 计算 机 
上 运行 的 同时 尽量 少 的 包含 平台 特定 的 代码 。 


当前 工作 目录 


当 你 刚刚 开始 学 习 Python 的 时 候 ， 你 将 花 大 量 的 时 间 在 Python Shell 上 。 在 整 本 书 中 ， 你 将 
一 直 看 见 类 似 下 面 的 例子 : 


1. 在 examples 目录 导入 某 一 个 模块 
2. 调用 模块 的 某 一 个 男 数 
3. 解释 输出 结果 


总 是 有 一 个 当前 工作 目录 


如 果 你 不 知道 当前 工作 目 录 ， 第 一 步 很 可 能 会 得 到 一 个 ImportError o 为 什么 ? 因为 Python 
将 在 导入 搜索 路 径 中 查找 示例 模块 ， 但 是 由 于 examples 目录 没有 包含 在 搜索 路 径 中 ， 查 找 
将 失败 。 你 可 以 通过 下 面 两 个 方法 之 一 来 解决 这 个 问题 : 


1. 将 examples 目录 加 入 到 导入 搜索 路 径 中 
2. 将 当前 工作 目录 切换 到 examples 目录 


Python 在 任何 时 候 都 在 暗地里 记 住 了 当前 工作 目录 这 个 属性 。 无 论 你 是 在 Python Shell m, 
还 是 在 命令 行 运行 你 自己 的 Python 脚本 ， 抑 或 是 在 Web 服务 器 上 运行 Python CGI 脚本 ， 当 
前 工作 目录 总 是 存在 。 


os 模块 提供 了 两 个 函数 义理 当前 工作 目录 


C: NPython31 


C:NUsersNpilgrimNdiveintopython3Nexamples 


1. 
2. 


os 是 Python 自 带 的 ; 你 可 以 在 任何 时 间 ， 任 何 地 方 导入 它 。 

使 用 os.getcwd() 本 数 获得 当前 工作 目录 。 当 你 运行 一 个 图 形 化 的 Python Shell 时 ， 当 
前 工作 目录 默认 将 是 Python Shell 的 可 执行 文件 所 在 的 目录 。 在 Windows 上 ， 这 个 目录 
取决 于 你 将 Python 安装 在 哪里 ; 默认 位 置 是 ci:\python31 。 如 果 你 通过 命令 行 运行 Python 
Shell， 当 前 工作 目录 是 你 运行 pythons 时 所 在 的 目录 。 


3. 使 用 os.chdir() 辑 数 改变 当前 工作 目录 


运行 os.chdir() 加 数 时 ， 即 使 在 Windows 上 ， 我 也 总 是 使 用 Linux 风 格 的 路 径 ( 正 斜 杠 ， 
没有 盘 符 )。 这 就 是 Python 尝试 隐藏 操作 系统 差异 的 一 个 地 方 。 


处 理 文件 名 和 目录 名 


既然 我 们 说 到 了 目录 ， 我 得 指出 os.path 模块 。 os .path 模块 包含 了 操作 文件 名 和 目录 名 的 
函数 . 


>>> import os 


/Users/pilgrim/diveintopython3/examples/humansize.py 


/Users/pilgrim/diveintopython3/examplesNhumansize.py 


c: NUsersNpilgrim 


c: NUsersNpilgrimNdiveintopython3NexamplesNhumansize.py 


1. 


o 


o 


os.path.join() 函数 从 一 个 或 多 个 路 径 片 段 中 构造 一 个 路 径 名 。 在 这 个 例子 中 ， 它 仅 
仅 是 简单 的 拼接 字符 串 . 


.这 个 例子 稍微 复 条 一 点 ， 在 和 文件 名 拼接 前 ， join 函数 给 路 径 名 添加 一 个 额外 的 余 


杠 。 由 于 我 在 Windows 上 写 这 个 例子 ， 这 个 斜 杠 是 一 个 反 斜 杠 而 不 是 正 斜 本 。 如 果 你 在 
Linux 或 者 Mac OS X 上 重 现 这 个 例子 ， 你 将 会 看 见 正 斜 杠 . 无 论 你 使 用 哪 种 形式 的 斜 
EL, Python 都 可 以 访问 到 文件 。 

os.path.expanduser() 用 来 将 包含 ~ 符号 (表示 当前 用 户 Home 目 录 ) 的 路 径 扩 展 为 完 
整 的 路 径 。 在 任何 有 Home 目录 概念 的 操作 系统 上 (包括 Linux，Mac OS X 和 Windows)， 
这 个 函数 都 能 工作 。 返 回 的 路 径 不 以 斜 杠 结 尾 ， 但 是 os.path.join() 并 不 介意 这 一 点 。 


.结合 这 些 技术 ， 你 可 以 很 方便 的 构造 出 用 户 Home 目录 下 的 文件 和 目录 的 路 径 。 


os.path.join() 可 以 接受 任何 数量 的 参数 。 当 我 发 现 这 一 点 时 我 大 喜 过 望 ， 因为 在 一 门 
新 的 语言 中 构造 我 的 工具 箱 时 ， addslashIfNecessary() 总 是 我 不 得 不 写 的 恩 春 的 小 函数 
之 一 。 不 要 在 Python 中 写 这 个 愚蠢 的 小 范 数 ， 聪 明 的 人 们 已 经 帮 你 考虑 过 这 个 问题 了 。 


path 也 包含 用 于 分 割 完整 路 径 名 ， 目 录 名 和 文件 名 的 函数 


>>> pathname = '/Users/pilgrim/diveintopython3/examples/humansize.py' 
('/Users/pilgrim/diveintopython3/examples', 'humansize.py') 
'/Users/pilgrim/diveintopython3/examples' 

'humansize.py' 


>>> Shortname 


'humansize' 

>>> extension 

' .py' 
1. split 图 数 分 割 一 个 完整 路 径 并 返回 目录 和 文件 名 。 


2. 还 记得 我 说 过 在 函数 返回 多 个 值 时 应 该 使 用 多 变量 赋值 吗 ? — KHA EE 


这 样 做 的 。 将 split HAPNREN FER 返回 元 组 中 的 对 
应 元 素 的 值 。 


3. 第 一 个 变量 dirname , 获得 了 os.path.split() 函数 返回 元 组 中 的 第 一 个 元 素 ， 文件 所 
在 的 目录 。 

4. 第 二 个 变量 filename ， 获 得 了 os.path.split() 图 数 返 回 元 组 中 的 第 二 个 元 素 ， 文 件 
名 。 

5. os.path 也 包含 os.path.splitext() 加 数 ， 它 分 割 一 个 文件 名 并 返回 短文 件 名 和 扩展 
名 。 可 以 使 用 同样 的 技术 将 它们 的 值 赋值 给 不 同 的 变量 。 


罗列 目录 内 容 


glob 模块 是 Python 标 准 库 中 的 另 一 个 工具 ， 它 可 以 通过 编程 的 方法 获得 一 个 目录 的 内 容 ， 
并 且 它 使 用 熟悉 的 命令 行 下 的 通配符 。 


glob 模块 使 用 shell 风 格 的 通配符 。 


>>> os.chdir('/Users/pilgrim/diveintopython3/') 
>>> import glob 


['examples\\feed-broken.xml', 
'examples\\feed-ns0.xml', 
'examples\\feed.xml'] 


['alphameticstest.py', 
'pluraltest1.py', 
'pluraltest2.py', 
'pluraltest3.py', 
'pluraltest4.py', 
'pluraltest5.py', 
'pluraltest6.py', 
'romantest1.py', 
'romantest10.py', 
'romantest2.py', 
'romantest3.py', 
'romantest4.py', 
'romantest5.py', 
'romantest6.py', 
'romantest7.py', 
'romantest8.py', 
'romantest9.py'] 


1. glob 模块 接受 一 个 通配符 并 返回 所 有 匹配 的 文件 和 目录 的 路 径 。 在 这 个 例子 中 ， 通 配 
符 是 一 个 目录 名 加 上 “ *.xml1 ”， 它 匹配 examples 子 目录 下 的 所 有 .xml 文件 。 

2， 现 在 我 们 将 当前 工作 目录 切换 到 examples 目录 。  os.chdir() 可 以 接受 相对 路 径 . 

3. 在 glob 模 式 中 你 可 以 使 用 多 个 通配符 。 这 个 例子 在 当前 工作 目录 中 找 出 所 有 扩展 名 
为 .py 并 且 在 文件 名 中 包含 单词 test 的 文件 。 


获取 文件 元 信息 


每 一 个 现代 文件 系统 都 对 文件 存储 了 元 信息 : 创建 时 间 ， 最 后 修改 时 间 ， 文 件 大 小 等 等 。 
Python 单独 提供 了 一 个 的 API 用 于 访问 这 些 元 信息 。 你 不 需要 打开 文件 。 知 道 文件 名 就 足够 
了 。 


>>> import os 
c: NUsersNpilgrimNdiveintopython3Nexamples 
1247520344.9537716 


time.struct time(tm year-2009, tm mon-7, tm mday-13, tm hour-17, 
tm min-25, tm sec-44, tm wday=0, tm yday-194, tm isdst-1) 


1. 当前 工作 目录 是 examples 文件 夹 。 

2. feed.xml 是 examples 文件 夹 中 的 一 个 文件 。 调用 os.stat() 画 数 返回 一 个 包含 多 种 文 
件 元 信息 的 对 象 。 

3. st mtime 是 最 后 修改 时 间 ， 它 的 格式 不 是 很 有 用 。( 技 术 上 讲 ， 它 是 从 纪元 ， 也 就 是 
1970 年 1 月 1 号 的 第 一 秒 钟 ， 到 现在 的 秒 数 ) 

4. time 模块 是 Python 标准 库 的 一 部 分 。 它 包含 用 于 在 不 同时 间 格 式 中 转换 ， 将 时 间 格 式 
化 成 字符 串 以 及 义理 时 区 的 函数 。 

5. time.localtime() 图 数 料 从 纪元 到 现在 的 秒 数 这 个 格式 表示 的 时 间 ( os.stat() KROK E 
值 的 st_mtime 属性 ) 转 换 成 更 有 用 的 包含 年 、 月 、 日 、 小 时 、 分 钟 、 秒 的 结构 体 。 这 个 
文件 的 最 后 修改 时 间 是 2009 年 7 月 13 日 下 午 5:25。 


# continued from the previous example 


3070 
>>> import humansize 


'8.0 KiB' 


1. os.stat() 函数 也 通过 st size 属性 返回 文件 大 小 。 文 件 feed.xml 的 大 小 是 3070 F 
节 。 
2. 你 可 以 将 st size 属性 作为 参数 传 给 approximate size() KŻ 


在 前 一 节 中 ， glob.glob() 画 数 返 回 一 个 相对 路 径 的 列表 。 第 一 个 例子 的 路 径 类 

似 'examplesNfeed.xml' , 而 第 二 个 例子 的 路 径 'romantesti.py' 更 短 。 只 要 你 保持 在 当前 工 
作 目 录 中 ， 你 就 可 以 使 用 这 些 相 对 路 径 来 打开 文件 或 者 获得 文件 的 元 信息 。 但 是 当 你 希望 构 
造 一 个 从 根 目 录 开 始 或 者 是 包含 郁 符 的 绝对 路 径 时 ， 你 就 需要 用 到 os.path.realpath() KRIŽ 
了 。 


>>> import os 

>>> print(os.getcwd()) 

c: NUsersNpilgrimNdiveintopython3Nexamples 

>>> print(os.path.realpath('feed.xml')) 

c: NUsersNpilgrimNdiveintopython3NexamplesNfeed. xml 


列表 解析 


你 可 以 在 列表 解析 中 使 用 任何 的 Python 表达 式 。 


列表 解析 提供 了 一 种 紧凑 的 方式 ， 实 现 了 通过 对 列表 中 每 一 个 元 素 应 用 一 个 画 数 的 方法 来 将 
一 个 列表 映射 到 另 一 个 列表 . 


>>> a_list = [1, 9, 8, 4] 
[2, 18, 16, 8] 
[1, 9, 8, 4] 


>>> a list 
[2, 18, 16, 8] 


1. 为 了 理解 这 一 点 ， 请 从 右 向 左 看 。 a_list 是 你 要 映射 的 列表 。Python 解 释 器 逐个 访 
i] a list 的 元 素 ， 并 临时 将 元 素 赋值 给 变量 elem. 然后 Python 对 元 素 应 用 画 
ZX elem * 2` 并 且 将 结果 添加 到 返回 列表 中 。 

2. 列表 解析 创造 一 个 新 的 列表 而 不 改变 原 列表 。 

3， 可 以 安全 的 将 列表 解析 的 结果 赋值 给 被 映射 的 变量 。Python 会 在 内 存 中 构造 新 的 列表 ， 
在 列表 解析 完成 后 将 结果 赋值 给 原来 的 变量 。 


你 可 以 在 列表 解析 中 使 用 任何 的 Python 表达 式 ， 包括 os 模块 中 用 于 操作 文件 和 目录 的 孙 
数 。 


>>> import os, glob 
['feed-broken.xml', 'feed-nsO.xml', 'feed.xml'] 
['c:NNUsersNNpilgrimNNdiveintopython3NNexamplesNNfeed-broken.xml', 


'c: NNUsersNNpilgrimNNdiveintopython3NNexamplesNNfeed-nsO.xml', 
'c:NNUsersNNpilgrimNNdiveintopython3NNexamplesNNMfeed . xm] '] 


2. 列表 解析 接受 .xml 文件 列表 并 将 其 转化 成 全 路 径 的 列表 。 


列表 解析 也 可 以 过 滤 列 表 ， 生 成 比 原 列表 短 的 结果 列表 。 


>>> import os, glob 
['pluraltest6.py', 
'romantesti0.py', 
'romantest6.py', 
'romantest7.py', 


'romantest8.py', 
'romantest9.py'] 


1， 你 可 以 在 列表 解析 的 最 后 加 入 if 子 句 来 过 滤 列 表 。 对 于 列表 中 每 一 个 元 素 if 关键 字 后 
面 的 表达 式 都 会 被 计算 。 如 果 表 达 式 的 计算 结果 为 True ， 那 么 这 个 元 素 将 会 被 包含 在 输 
出 中 。 这 个 列表 解析 在 当前 目录 查找 所 有 .py 文件 ， 而 if 表达 式 通过 测试 文件 大 小 是 
否 大 于 69ee 字 节 对 列表 进行 过 滤 。 有 6 个 符合 条 件 的 文件 ， 所 以 这 个 列表 解析 返回 包含 
六 个 文件 名 的 列表 。 


到 目前 为 止 的 例子 中 的 列表 解析 都 只 是 用 了 一 些 简单 的 表达 式 ， 乘 以 一 个 常数 、 调 用 一 个 图 
数 或 者 是 在 过 滤 后 返回 原始 元 素 。 然而 列表 解析 并 不 限制 表达 式 的 复杂 程度 。 


>>> import os, glob 

[(3074, 'c:NNUsersNNpilgrimNNdiveintopython3NNexamplesNNfeed-broken.xml'), 
(3386, 'c:NNUsersNNpilgrimNNdiveintopython3NNexamplesNNfeed-nsO.xml'), 
(3070, 'c:NNUsersNNpilgrimNNdiveintopython3NNexamplesNNMfeed. xml')] 

>>> import humansize 


('3.0 KiB', 'feed-broken.xml'), 


[ 
('3.3 KiB', 'feed-nsO.xml'), 
('3.0 KiB', 'feed.xm1')] 


1， 这 个 列表 解析 找到 当前 工作 目录 下 的 所 有 om 文件 ， 对 于 每 一 个 文件 构造 一 个 包含 文 
件 大 小 (通过 调用 os.stat() 获得 ) 和 绝对 路 径 ( 通 过 调用 os.path.realpath() ) 的 元 组 。 

2， 这 个 列表 解析 在 前 一 个 的 基础 上 对 每 一 个 .xml 文件 的 大 小 应 用 approximate size() FW 
数 。 


字典 解析 


字典 解析 和 列表 解析 类 似 ， 只 不 过 它 生成 字典 而 不 是 列表 。 


>>> import os, glob 


('alphameticstest.py', nt.stat result(st mode-33206, st ino-0, st dev-0, 
st nlink-0, st uid-0, st gid-0, st size-2509, st atime-1247520344, 
st mtime-1247520344, st ctime-1247520344)) 


«class 'dict'» 


['romantest8.py', 'pluraltesti.py', 'pluraltest2.py', 'pluraltest5.py', 
'pluraltest6.py', 'romantest7.py', 'romantesti0.py', 'romantest4.py', 
'romantest9.py', 'pluraltest3.py', 'romantesti.py', 'romantest2.py', 
'romantest3.py', 'romantestb5.py', 'romantest6.py', 'alphameticstest.py', 
'pluraltest4.py'] 


2509 


1， 这 不 是 字典 解析 ; 而 是 列表 解析 。 它 找到 所 有 名 称 中 包含 test 的 .py 文件 ， 然 后 构造 包 
含 文 件 名 和 文件 元 信息 (通过 调用 os.stat() 画 数 得 到 ) 的 元 组 。 

2， 结 果 列 表 的 每 一 个 元 素 是 元 组 。 

3. 这 是 一 个 字典 解析 。 除了 两 点 以 外 ， 它 的 语法 同 列表 解析 很 类 似 。 首 先 ， 它 被 花 括号 而 
不 是 方 括号 包围 ; 第 二 ， 对 于 每 一 个 元 素 它 包含 由 冒号 分 隔 的 两 个 表达 式 ， 而 不 是 列表 解 
析 的 一 个 。 冒 号 前 的 表达 式 (在 这 个 例子 中 是 f ) 是 字典 的 键 ;冒号 后 面 的 表达 式 (在 这 个 例 
子 中 是 os.stat(f) ) 是 值 。 

4. 字典 解析 返回 结果 是 字典 。 

5， 这 个 字典 的 键 很 简单 ， 就 是 glob.glob('*test*.py') 调用 返回 的 文件 名 。 

6. 每 一 个 键 对 应 的 值 是 os.stat() 画 数 的 返回 值 。 这 意味 着 我 们 可 以 在 字典 中 通过 文件 名 
查找 到 它 的 文件 元 信息 。 元 信息 的 一 个 部 分 是 文件 大 小 st_size 。 这 个 文 
件 alphameticstest.py 的 大 小 是 2509 字 节 。 


同 列表 解析 一 样 ， 你 可 以 在 字典 解析 中 包含 if 字句 来 过 滤 输入 序列 ， 对 于 每 一 个 元 素 字 句 中 
的 表达 式 都 会 被 求 值 。 


>>> import os, glob, humansize 


['romantest9', 'romantest8', 'romantest7', 'romantest6', 'romantest10', 'pluraltest6'] 

'6.5 KiB' 

1. 这 个 字典 解析 获得 当前 目 录 下 所 有 的 文件 的 列表 ( glob.glob('*') )， 通过 os.stat(f) 3k 
得 每 一 个 文件 的 元 信息 ， 然后 构造 一 个 键 是 文件 名 ， 值 是 文件 元 信息 的 字典 。 

2.， 这 个 字典 解析 在 前 一 个 基础 上 过 滤 掉 文件 小 于 s000 字 节 的 文件 


( if meta.st size &gt; 6000 ), 并 用 过 滤 出 的 列表 构造 字典 ， 字典 的 键 是 文件 名 去 掉 扩 
展 名 的 部 分 ( os.path.splitext(f)[0] ) ， 字 典 的 值 是 每 个 文件 的 人 类 可 读 的 近似 大 小 
( humansize.approximate size(meta.st size) Jo 

3. 正如 你 在 前 一 个 例子 中 所 看 见 的 ， 有 6 个 这 样 的 文件 ， 所 以 字典 中 有 6 个 元 素 。 

4. 每 一 个 键 对 应 的 值 是 approximate size() PSZIDE[BIBS TE RE ER. 


其 他 同 字典 解析 有 关 的 小 技巧 


这 里 是 一 个 可 能 有 用 的 通过 字典 解析 实现 的 小 技巧 : 交换 字典 的 键 和 值 。 


zea e oikee (a a Soa A CI MEI 
>>> {value:key for key, value in a dict.items()} 
(abs "eX. mg oie i DU 


集合 解析 


同 祥 ,集合 也 有 自己 的 集合 解析 的 语法 。 它 和 字典 解析 的 非常 相似 ， 唯 一 的 不 同 是 集合 只 有 值 
而 没有 键 : 值 对 。 


>>> a set = set(range(10)) 

>>> a set 

(0, 1, 2, 8, 4, 5, 6, 7, 8, 9} 

[0, 1, 4, 81, 64, 9, 16, 49, 25, 36} 
(0, 8, 2, 4, 6j 


{32, 1, 2, 4, 8, 64, 128, 256, 16, 512} 


1. 集合 解析 可 以 接受 一 个 集合 作为 参数 。 这 个 集合 解析 计算 数字 0- 9 这 个 集合 的 的 平方 。 

2， 同 列表 解析 和 字典 解析 一 样 ， 集合 解析 也 可 以 包含 if 字句 来 在 将 元 素 放 入 结果 集合 前 
进行 过 滤 。 

3. 集合 解析 的 输入 并 不 一 定 要 是 集合 ; 可 以 是 任何 序列 。 


进一步 阅读 


e os module 

e os — Portable access to operating system specific features 
e os.path module 

e os.path — Platform-independent manipulation of file names 
e glob module 

e glob — Filename pattern matching 

e time module 

e time — Functions for manipulating clock time 

e List comprehensions 

e Nested list comprehensions 

e Looping techniques 


Chapter 4 FHE 


"Tm telling you this 'cause you're one of my friends. My alphabet starts where your 
alphabet ends! " — Dr. Seuss, On Beyond Zebra! 


在 开始 之 前 需要 掌握 的 一 些 知 识 


你 是 否 知道 Bougainville 人 有 世界 上 最 小 的 字母 表 ? 他们 的 Rotokas 字母 表 只 包含 了 12 个 字 
母 : A, E,G, 1,K, O, P, R, S TU, 和 V。 另 一 方面 ,， 像 汉语 ， 日语 和 韩语 这 些 语言 ， 它 们 则 
有 成 千 上 万 个 字符 。 当 然 啦 ， 英 语 共 有 26 个 字母 一 如 果 把 大 宇和 小 写 分 别 计算 的 话 ，52 个 
— 外 加 少量 的 标点 符号 ， 上 比如 /@#8$%& 


当 人 们 说 起 “文本 ， 他 们 通常 指 显 示 在 屏幕 上 的 字符 或 者 其 他 的 记号 ; 但 是 计算 机 不 能 直接 处 
理 这 些 字符 和 标记 ; 它们 只 认识 位 (bit) 和 字 节 (byte)。 实 际 上 ， 从 屏幕 上 的 每 一 块 文本 都 是 以 
某 种 字符 编码 (character encoding) 的 方式 保存 的 。 粗 上 略 地 说 就 是 ， 字 符 编码 提供 一 种 映射 ， 

使 屏幕 上 显示 的 内 容 和 内 存 、 磁 胡 内 存储 的 内 容 对 应 起 来 。 有 许多 种 不 同 的 字符 编码 ， 有 一 
些 是 为 特定 的 语言 ， 比 如 俄语 、 中 文 或 者 英语 ， 设 计 、 优 化 的 ， 另 外 一 些 则 可 以 用 于 多 种 语 
SB) S. 


fr Sc P BRE rm] EG E 3b RER IE, AFREEN RREA, BEER 
的 内 存 或 者 磁盘 上 ， 不 同 的 编码 方式 可 能 会 使 用 不 同 的 字 节 序列 来 存储 他 们 。 所 以 ， 你 可 以 
把 字符 编码 当做 一 种 解码 密 钥 。 当 有 人 给 你 一 个 字 节 序列 一 文件， 网 页 ， 或 者 别 的 什么 一 
并 且 告 诉 你 它们 是 "文本 "时 ， 就 需要 知道 他 们 使 用 了 何 种 编码 方式 ， 然 后 才能 将 这 些 字 节 序列 
解码 成 字符 。 如 果 他 们 给 的 是 错误 的 “ 密 钥 "或 者 根本 没有 给 你 " 密 钥 "， 那 就 得 自己 来 破解 这 段 
编码 ， 这 可 是 一 个 艰难 的 任务 。 有 可 能 你 使 用 了 错误 的 解码 方式 ， 然 后 出 现 一 些 莫名 其 妙 的 
结果 。 


你 所 了 解 的 关于 字符 串 的 知识 都 是 错 的 。 


你 肯定 见 过 这 样 的 网 页 ， 在 撤 《号 ( ' ) 该 出 现 的 地 方 被 奇怪 的 像 问号 的 字符 替代 了 。 这 种 情况 
通常 意味 着 页 面 的 作者 没有 正确 的 声明 其 使 用 的 编码 方式 ， 浏 览 器 只 能 自己 来 猜测 ， 结 果 就 
是 一 些 正确 的 和 意料 之 外 的 字符 的 混合 体 。 如 果 原 文 是 英语 ， 那 只 是 不 方便 阅读 而 已 ; 在 其 
他 的 语言 环境 下 ， 结 果 可 能 是 完全 不 可 读 的 。 


现 有 的 字符 编码 各 类 给 世界 上 每 种 主要 的 语言 都 提供 了 编码 方案 。 由 于 每 种 语言 的 各 不 相 
同 ， 而 且 在 以 前 内 存 和 硬盘 都 很 昂贵 ， 所 以 每 种 字符 编码 都 为 特定 的 语言 做 了 优化 。 上 边 这 
句 话 的 意思 是 ， 每 种 编码 都 使 用 数字 (0--255) 来 代表 这 种 语言 的 字符 。 比 如， 你 也 许 熟悉 
ASCII 编 码 ， 它 将 英语 中 的 字符 都 当做 从 0-127 的 数字 来 存储 。 (65 表 示 大 写 的 “A”，97 表 示 
小 写 的 “a”，_&_c。) 英语 的 字母 表 很 简单 ， 所 以 它 能 用 不 到 128 个 数字 表达 出 来 。 如 果 你 懂 
得 2 进 制 计 数 的 话 ， 它 只 使 用 了 一 个 字 节 内 的 7 位 。 





西欧 的 一 些 语言 ， 比 如 法 语 ， 西 班 牙 语 和 德语 等 ， 比 英语 有 更 多 的 字母 。 或 者 ， 更 准确 的 
说 ， 这 些 语言 含有 与 变 音符 号 (diacritical marks) 组 合 起 来 的 字母 ， 像 西班牙 语 里 的 i 。 这 些 
语言 最 常用 的 编码 方式 是 CP-1252， 又 叫做 “Windows-1252”， 因 为 它 在 微软 的 视窗 操作 系统 
上 被 广泛 使 用 。CP-1252 和 ASCII 在 0-127 这 个 范围 内 的 字符 是 一 样 的 ， 但 是 CP-1252 为 n (n- 
with-a-tilde-over-it, 241), ü (u-with-two-dots-over-it, 252) 这 类 字符 而 扩展 到 了 128-255 这 个 


范围 。 然 而 ， 它 仍然 是 一 种 单字 节 的 编码 方式 ; 可 能 的 最 大 数字 为 255， 这 仍然 可 以 用 一 个 字 
节 来 表示 。 


然而 ， 像 中 文 ， 日 语 和 韩语 等 语言 ， 他 们 的 字符 如 此 之 多 而 不 得 不 需要 多 字 节 编码 的 字符 
集 。 即 ， 使 用 两 个 字 节 的 数字 (0-255) 代 表 每 个 "字符 "。 但 是 就 跟 不 同 的 单字 节 编 码 方式 一 
样 ， 多 字 节 编码 方式 之 间 也 有 同样 的 问题 ， 即 他 们 使 用 的 数字 是 相同 的 ， 但 是 表达 的 内 容 却 
不 同 。 相 对 于 单字 节 编 码 方式 它们 只 是 使 用 的 数字 范围 更 广 一 些 ， 因 为 有 更 多 的 字符 需要 表 
示 。 


在 没有 网 络 的 时 代 , “文本 "由 自己 输入 ， 偶 尔 才 会 打印 出 来 ， 大 多 数 情况 下 使 用 以 上 的 编码 方 
案 是 可 行 的 。 那 时 没有 太 多 的 “ 纯 文本 。 源 代码 使 用 ASCII 编 码 ， 其 他 人 也 都 使 用 字 处 理 器 ， 

这 些 字义 理 器 定义 了 他 们 自己 的 格式 ( 非 文 本 的 ) ， 这 些 格式 会 连同 字符 编码 信息 和 风格 样 
式 一 起 记录 其 中 ，_&_c。 人 们 使 用 与 原作 者 相同 的 字义 理 软件 读 取 这 些 文档 ， 所 以 或 多 或 少 
地 能 够 使 用 。 


现在 ， 我 们 考虑 一 下 像 email 和 和 web 这样 的 全 球 网 络 的 出 现 。 大 量 的 “ 纯 文本 ”文件 在 全 球 范围 内 
流转 ， 它 们 在 一 台电 脑 上 被 撰写 出 来 ， 通 过 第 二 台电 脑 进行 传输 ， 最 后 在 另外 一 台电 脑 上 显 
示 。 计 算 机 只 能 识别 数字 ， 但 是 这 些 数 字 可 能 表达 的 是 其 他 的 东西 。Oh nol 怎么 办 呢 。。 好 
吧 ， 那 么 系统 必须 被 设计 成 在 每 一 段 “ 纯 文本 上 都 搭载 编码 信息 。 记 住 ， 编 码 方式 是 将 计算 机 
可 读 的 数字 映射 成 人 类 可 读 的 字符 的 解码 密 钥 。 失 去 解码 密 钥 则 意味 着 混乱 不 清 的 ， 莫 名 其 
妙 的 信息 ， 或 者 更 糟 。 

现在 我 们 考虑 党 试 把 多 段 文 本 存储 在 同一 个 地 方 ， 比 如 放置 所 有 收 到 邮件 的 数据 库 。 这 仍然 
需要 对 每 段 文 本 存储 其 相关 的 字符 编码 信息 ， 只 有 这 样 才 能 正确 地 显示 它们 。 这 很 困难 吗 ? 
试 试 搜索 你 的 email 数 据 库 ， 这 意味 着 需要 在 运行 时 进行 编码 之 间 的 转换 。 很 有 趣 是 吧 .…. 
现在 我 们 来 分 析 另 外 一 种 可 能 性 ， 即 多 语言 文档 ， 同 一 篇 文档 里 来 自 几 种 不 同 语言 的 字符 混 
在 一 起 。 (提示 : 义理 这 样 文档 的 程序 通常 使 用 转 义 符 在 不 同 的 “模式 (modes) "之 间 切换 。 
P 现在 是 俄语 koi8-r 模式 ， 所 以 241 代 表 另 ; 2 ! 现在 到 了 Mac Greek 模式 ， 所 以 241 代 
Kw. ) 当然 ， 你 也 会 想 要 搜索 这 些 文档 。 

现在 ， 你 就 器 吧 ， 因 为 以 前 所 了 解 的 关于 字符 串 的 知识 都 是 错 的 ， 根 本 就 没有 所 谓 的 “ 纯 文 
ru 


Unicode 


Unicode A i]. 


Unicode 编 码 系统 为 表达 任意 语言 的 任意 字符 而 设计 。 它 使 用 4 字 节 的 数字 来 表达 每 个 字母 、 
符号 ， 或 者 表意 文字 (ideograph)。 每 个 数字 代表 唯一 的 至 少 在 某 种 语言 中 使 用 的 符号 。 (并 
不 是 所 有 的 数字 都 用 上 了 ， 但 是 总 数 已 经 超过 了 65535， 所 以 2 个 字 节 的 数字 是 不 够 用 的 。) 
被 几 种 语言 共用 的 字符 通常 使 用 相同 的 数字 来 编码 ， 除 非 存 在 一 个 在 理 的 语源 学 
(etymological) 理 由 使 不 这 样 做 。 不 考虑 这 种 情况 的 话 ， 每 个 字符 对 应 一 个 数字 ， 每 个 数字 对 
应 一 个 字符 。 即 不 存在 二 义 性 。 不 再 需要 记录 "模式 ”了 。  u«0041i 总 是 代表 cat ， 即 使 这 种 语 
言 没有 'A' 这 个 字符 。 


初次 面 对 这 个 创 想 ， 它 看 起 来 似乎 很 伟大 。 一 种 编码 方式 即 可 解决 所 有 问题 。 文 档 可 包含 多 
种 语言 。 不 再 需要 在 各 种 编码 方式 之 间 进 行 "模式 转换 "。 但 是 很 快 ， 一 个 明显 的 问题 跳 到 我 们 
面前 。4 个 字 节 ? 只 为 了 单独 一 个 字符 ? 这 似乎 太 浪费 了 ， 特 别 是 对 像 英 语 和 西 语 这 样 的 语 
言 ， 他 们 只 需要 不 到 1 个 字 节 即 可 以 表达 所 需 的 字符 。 事 实 上 ， 对 于 以 象形 为 基础 的 语言 (上 比 
如 中 文 ) 这 种 方法 也 有 浪费 ， 因 为 这 些 语言 的 字符 也 从 来 不 需要 超过 2 个 字 节 即 可 表达 。 


有 一 种 Unicode 编 码 方式 每 1 个 字符 使 用 4 个 字 节 。 它 叫做 UTF-82， 因 为 32 位 = 4 字 节 。UTF- 
32 是 一 种 直观 的 编码 方式 ; 它 收录 每 一 个 Unicode 字 符 (4 字 节 数字 ) 然后 就 以 那个 数字 代表 
该 字符 。 这 种 方法 有 其 优点 ， 最 重要 的 一 点 就 是 可 以 在 常数 时 间 内 定位 字符 串 里 的 第 N 个 字 
符 ， 因 为 第 N 个 字符 从 第 4xNth 个 字 节 开始 。 另 外 ， 它 也 有 其 缺点 ， 最 明显 的 就 是 它 使 用 4 
个 “诡异 "的 字 节 来 存储 每 个 “诡异 "的 字符 .… 


尽管 有 Unicode 字 符 非常 多 ， 但 是 实际 上 大 多 数 人 不 会 用 到 超过 前 65535 个 以 外 的 字符 。 
此 ， 就 有 了 另外 一 种 Unicode 编 码 方式 ， 叫 做 UTF-16( 因 为 16 位 = 2 字 节 )。UTF-16 将 0-65535 
范围 内 的 字符 编码 成 2 个 字 节 ， 如 果真 的 需要 表达 那些 很 少 使 用 的 ' 星 基层 (astral plane) AHE 
过 这 65535 范 围 的 Unicode 字 符 ， 则 需要 使 用 一 些 诡异 的 技巧 来 实现 。UTF-16 编 码 最 明显 的 优 
点 是 它 在 空间 效率 上 上 比 UTF-32 高 两 倍 ， 因 为 每 个 字符 只 需要 2 个 字 节 来 存储 (除去 65535 范 转 
以 外 的 ) ， 而 不 是 UTF-32 中 的 4 个 字 节 。 并 且 ， 如 果 我 们 假设 某 个 字符 串 不 包含 任何 星 基 层 
中 的 字符 ， 那 么 我 们 依然 可 以 在 常数 时 间 内 找到 其 中 的 第 N 个 字符 ， 直 到 它 不 成 立 为 止 这 总 
是 一 个 不 错 的 推断 … 


但 是 对 于 UTF-32 和 UTF-16 编 码 方式 还 有 一 些 其 他 不 明显 的 缺点 。 不 同 的 计算 机 系统 会 以 不 同 
的 顺序 保存 字 节 。 这 意味 着 字符 u+4E2D 在 UTF-16 编 码 方式 下 可 能 被 保存 为 4E 2D 或 

者 2D 4E ， 这 取决 于 该 系统 使 用 的 是 大 尾 端 (big-endian) 还 是 小 尾 端 (little-endian)。 (对 于 
UTF-32 编 码 方式 ， 则 有 更 多 种 可 能 的 字 节 排列 。) 只 要 文档 没有 离开 你 的 计算 机 ， 它 还 是 安 
全 的 一 同一 台电 脑 上 的 不 同 程序 使 用 相同 的 字 节 顺序 (byte order)。 但 是 当 我 们 需要 在 系统 之 
间 传 输 这 个 文档 的 时 候 ， 也 许 在 万 维 网 中 ， 我 们 就 需要 一 种 方法 来 指示 当前 我 们 的 字 节 是 怎 
样 存储 的 。 不 然 的 话 ， 接 收文 档 的 计算 机 就 无 法 知道 这 两 个 字 节 4E 2D 表达 的 到 底 


是 U+4E2D 还 是 U+2D4E o 


为 了 解决 这 个 问题 ， 多 字 节 的 Unicode 编 码 方式 定义 了 一 个 “ 字 节 顺序 标记 (Byte Order 

Mark)”， 它 是 一 个 特殊 的 非 打 印字 符 ， 你 可 以 把 它 包含 在 文档 的 开头 来 指示 你 所 使 用 的 字 节 顺 
序 。 对 于 UTF-16， 字 节 顺 序 标记 是 urFEFF 。 如 果 收 到 一 个 以 字 节 FF FE 开头 的 UTF-16 编 码 
的 文档 ， 你 就 能 确定 它 的 字 节 顺序 是 单 向 的 (one way) 的 了 ; 如 果 它 以 FE FF 开头 ， 则 可 以 确 
定 字 节 顺 序 反 向 了 。 


不 过 ，UTF-16 还 不 够 完美 ， 特 别 是 要 义理 许多 ASCII 字 符 时 。 如 果 仔 细 想 想 的 话 ， 甚 至 一 个 
中 文 网 页 也 会 包含 许多 的 ASCIIl 字 符 一 所 有 包围 在 可 打印 中 文字 符 周 围 的 元 素 (element) 和 属 
性 (attribute)。 能 够 在 常数 时 间 内 找到 第 Nth 个 字符 当然 非常 好 ， 但 是 依然 存在 着 纠缠 不 休 的 
星 芒 层 字符 的 问题 ， 这 意味 着 你 不 能 保证 每 个 字符 都 是 2 个 字 节 长 ， 所 以 ， 除 非 你 维护 着 另外 
一 个 索引 ， 不 然 就 不 能 真正 意义 上 的 在 常数 时 间 内 定位 第 N 个 字符 。 另 外 ， 朋 友 ， 世 界 上 肯 
定 还 存在 很 多 的 ASCII 文 本 .… 


另外 一 些 人 琢磨 着 这 些 问题 ， 他 们 找到 了 一 种 解决 方法 : 


UTF-8 The range of integers used to code the abstract characters is called the codespace. A 
particular integer in this set is called a code point. When an abstract character is mapped or 
assigned to a particular code point in the codespace, it is then referred to as an encoded 
character. <--> 


UTF-8 是 一 种 为 Unicode 设 计 的 变 长 (variable-length) 编 码 系 统 。 即 ， 不 同 的 字符 可 使 用 不 同 数 
量 的 字 节 编码 。 对 于 ASCII 字 符 (A-Z，& _c.)UTF-8 仅 使 用 1 个 字 节 来 编码 。 事 实 上 ，UTF-8 中 
前 128 个 字符 (0-127) 使 用 的 是 跟 ASCII 一 样 的 编码 方式 。 像 i 和 6 这 样 的 “扩展 拉丁 字符 
(Extended Latin)" 则 使 用 2 个 字 节 来 编码 。 (这 里 的 字 节 并 不 是 像 UTF-16 中 那样 简单 的 
Unicode 编 码 点 (unicode code point) ; 它 使 用 了 一 些 位 变换 (bit-twiddling)。) 中 文字 符 比 

如 “中 * 则 占用 了 3 个 字 节 。 很 少 使 用 的 “ 星 芒 层 字 符 ” 则 占用 4 个 字 节 。 


缺点 : 因为 每 个 字符 使 用 不 同 数量 的 字 节 编码 ， 所 以 寻找 串 中 第 N 个 字符 是 一 个 O(N) 复 杂 度 
的 操作 一 即 ， 串 越 长 ， 则 需要 更 多 的 时 间 来 定位 特定 的 字符 。 同 时 ， 还 需要 位 变换 来 把 字符 
编码 成 字 节 ， 把 字 节 解码 成 字符 。 


优点 : 在 处 理 经 常会 用 到 的 ASCIl 字 符 方 面 非常 有 效 。 在 处 理 扩 展 的 拉丁 字符 集 方 面 也 不 比 
UTF-16 差 。 对 于 中 文字 符 来 说 ， 比 UTF-32 要 好 。 同 时 ， (在 这 一 条 上 你 得 相信 我 ， 因 为 我 不 
打算 给 你 展示 它 的 数学 原理 。) 由 位 操作 的 天 性 使 然 ， 使 用 UTF-8 不 再 存在 字 节 顺 序 的 问题 
了 。 一 份 以 UTF-8 编 码 的 文档 在 不 同 的 计算 机 之 间 是 一 样 的 比特 流 。 


概述 


在 Python 3， 所 有 的 字符 串 都 是 使 用 Unicode 编 码 的 字符 序列 。 不 再 存在 以 UTF-8 或 者 CP- 
1252 编 码 的 情况 。 也 就 是 说 , “这 个 字符 串 是 以 UTF-8 编 码 的 吗 ? 不 再 是 一 个 有 效 问 

题 。”UTF-8 是 一 种 将 字符 编码 成 字 节 序列 的 方式 。 如 果 需 要 将 字符 串 转 换 成 特定 编码 的 字 节 
序列 ，Python 3 可 以 为 你 做 到 。 如 果 需 要 将 一 个 字 节 序列 转换 成 字符 串 ，Python 3 也 能 为 你 做 
到 。 字 节 即 字 节 ， 并 非 字 符 。 字 符 在 计算 机 内 只 是 一 种 抽象 。 字 符 串 则 是 一 种 抽象 的 序列 。 


9 
"3E Gg 


IÑ 


' 深 入 Python 3' 


. 为 了 创建 一 个 字符 串 ， 将 其 用 引号 包围 。Python 字 符 串 可 以 通过 单 引 号 ( ' ) 或 者 双 引 号 
( " ) 来 定义 。 

AEK% len() 可 返回 字符 串 的 长 度 ， 即 字符 的 个 数 。 这 和 与 获得 列表 ， 元 组 ， 集 合 或 者 
字典 的 长 度 的 函数 是 同一 个 。Python 中 ， 字 符 串 可 以 想像 成 由 字符 组 成 的 元 组 。 

Just like getting individual items out of a list, you can get individual characters out of a 
string using index notation. 与 取得 列表 中 的 元 素 一 样 ， 也 可 以 通过 下 标记 号 取得 字符 串 
中 的 某 个 字符 。 


类 似 列表 ， 可 以 使 用 + 操作 符 来 连接 (concatenate) 字 符 串 。 


格 陈 化 字符 串 


字符 串 可 以 使 用 单 引 号 或 者 双 引 号 来 定义 。 


我 们 再 来 看 一 看 humansize.py : 


1024: ['KiB', 'MiB', 'GiB', 'TiB', 'PiB', 'EiB', 'ZiB', 'YiB']} 


def approximate size(size, a kilobyte is 1024 bytes-True): 


4. 
5. 


Keyword arguments: 

size -- file size in bytes 

a kilobyte is 1024 bytes -- if True (default), use multiples of 1024 
if False, use multiples of 1000 


Returns: string 
if size « 0: 
multiple = 1024 if a kilobyte is 1024 bytes else 1000 
for suffix in SUFFIXES[multiple]: 
size /- multiple 
if size « multiple: 
raise ValueError('number too large') 


'KB', 'MB', 'GB' ... 这 些 是 字符 串 。 


范 数 的 文档 字符 串 (docstring) 也 是 字符 串 。 当 前 的 文档 字符 串 占用 了 多 行 ， 所 以 它 使 用 了 
相 邻 的 3 个 引号 来 标记 字符 串 的 起 始 和 终止 。 

这 3 个 引号 代表 该 文档 字符 串 的 终止 。 

这 是 另外 一 个 字符 串 ， 作 为 一 个 可 读 的 提示 信息 传递 给 异常 。 

瓦 哦 ... 那 是 什么 ? 


Python 3 支持 把 值 格式 化 (format) 成 字符 串 。 可 以 有 非常 复杂 的 表达 式 ， 最 基本 的 用 法 是 使 用 
单个 占 位 符 (placeholder) 将 一 个 值 插入 字符 串 。 


>>> username = 'mark' 


"mark's password is PapayaWhip" 


1. ^, Papayawhip 真 的 不 是 我 的 密码 。 

2. 这 里 包含 了 很 多 知识 。 首 先 ， 这 里 使 用 了 一 个 字符 串 字面 值 的 方法 调用 。 字 符 串 也 是 对 
象 ， 对 象 则 有 其 方法 。 其 次 ， 整 个 表达 式 返 回 一 个 字符 串 。 最 后 ， {6} 和 {1} 叫做 替换 
*E E (replacement fielq)， 他 们 会 被 传递 给 format() 方法 的 参数 替换 。 


复合 字段 名 


在 前 一 个 例子 中 ， 蔡 换 字段 只 是 简单 的 整数 ， 这 是 最 简单 的 用 法 。 整 型 蔡 换 字段 被 当做 传 

给 format() 方法 的 参数 列表 的 位 置 素 引 。 即 ， (e) 会 被 第 一 个 参数 蔡 换 (在 此 例 中 

即 username ) , {1} 被 第 二 个 参数 替换 

( password) ，_&_c。 可 以 有 跟 参 数 一 样 多 的 替换 字段 ， 同 时 你 也 可 以 使 用 任意 多 个 参数 来 调用 format() . (aga 


>>> import humansize 


>>> si suffixes 
IKB EMB; VGBi; GIB; PBI MEBI EZB YB 


'1000KB = 1MB' 


1. 不 需要 调用 humansize 模块 定义 的 任何 函数 我 们 就 可 以 抓 取 到 其 所 定义 的 数据 结构 : 
际 单 位 制 (SI, 来 自 法 语 Systeme International) 的 后 级 列表 (以 1000 为 进 制 ) 。 

2.， 这 一 句 看 上 去 有 些 复杂 ， 其 实 不 是 这 样 的。 (0) 代表 传递 给 format() 方法 的 第 一 个 参 
数 ， 即 si suffixes 。 注 意 si suffixes 是 一 个 列表 。 所 以 {or[6]} 指 代 si suffixes 的 
第 一 个 元 素 ， 即 'kB' 。 同 时 ， {6[1]} 指 代 该 列表 的 第 二 个 元 素 ， 即 : wet 。 大 括号 
以 外 的 内 容 一 包括 1606 ， 等 号 ， 还 有 空格 等 一 则 按 原 祥 和 输出。 语句 最 后 返回 字符 串 


Jj '1000KB = 1MB' o 
{0} 会 被 format() 的 第 1 个 参数 替换 ，{1} 则 被 其 第 2 个 参数 替换 。 


这 个 例子 说 明 格 式 说 明 符 可 以 通过 利用 (类 似 ) Python 的 语法 访问 到 对 象 的 元 素 或 属性 。 这 
就 叫做 复合 字段 名 (compound field names)。 以 下 复合 字段 名 都 是 “有 效 的 ”。 


。 使 用 列表 作为 参数 ， 并 且 通 过 下 标 索引 来 访问 其 元 素 〈 跟 上 一 例 类 似 ) 
。 使 用 字典 作为 参数 ， 并 且 通 过 键 来 访问 其 值 

e 使 用 模块 作为 参数 ， 并 且 通 过 名 字 来 访问 其 变量 及 函数 

。 使 用 类 的 实例 作为 参数 ， 并 且 通 过 名 字 来 访问 其 方法 和 属性 

。 以 上 方法 的 任意 组 合 


为 了 使 你 确信 的 确 如 此 ， 下 面 这 个 样 例 就 组 合 使 用 了 上 面 所 有 方法 : 


>>> import humansize 

>>> import sys 

>>> '1MB = 1000{0.modules[humansize].SUFFIXES[1000][0]}'.format(sys) 
'1MB = 1000KB' 
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下 面 是 描述 


e sys 模块 保存 了 当前 正在 运行 的 Python 实例 的 信息 。 由 于 已 经 导入 了 这 个 模块 ， 因 此 可 
以 将 其 作为 format() 方法 的 参数 。 所 以 蔡 换 域 (0) 指 代 sys 模块 。 

e sys.modules is a dictionary of all the modules that have been imported in this Python 
instance. The keys are the module names as strings; the values are the module objects 
themselves. So the replacement field {0.modules} refers to the dictionary of imported 
modules. sys.modules 是 一 个 保存 当前 Python 实例 中 所 有 已 经 导入 模块 的 字典 。 模块 的 
名 字 作 为 字典 的 键 ; 模块 自身 则 是 键 所 对 应 的 值 。 所 以 (0.modules) 指 代 保存 当前 己 被 导 
入 模块 的 字典 。 

e  sys.modules['humansize'] 即 刚才 导入 的 numansize 模块 。 所 以 蔡 换 
域 {0.modules[humansize]} 指 代 humansize 模块 。 请 注意 以 上 两 句 在 语法 上 轻微 的 不 同 。 
在 实际 的 Python 代码 中 ， 字 典 sys .modules 的 键 是 字符 串 类 型 的 ; 为 了 引用 它们 ， 我 们 
需要 在 模块 名 周围 放 上 引号 (比如 'humansize' ) 。 但 是 在 使 用 替换 域 的 时 候 ， 我 们 在 
省 略 了 字典 的 键 名 周围 的 引号 (比如 humansize ) 。 在 此 ， 我 们 引用 PEP 3101 : 字符 串 
格式 化 高 级 用 法 ,， "解析 键 名 的 规则 非常 简单 。 如 果 名 字 以 数字 开头 ， 则 它 被 当 作 数字 使 
用 ， 其 他 情况 则 被 认为 是 字符 串 。” 

*  sys.modules['humansize'].SUFFIXES 是 在 humansize 模块 的 开头 定义 的 一 个 字典 对 象 。 

{9.modules[humansize] .SUFFIXES} 即 指向 该 字典 。 

* sys.modules['humansize'].SUFFIXES[1000] 是 一 个 S| (国际 单位 制 ) 后 级 列 
表 : ['KB', 'MB', 'GB', 'TB', 'PB', 'EB', 'ZB', 'YB'] 。 所 以 替换 
域 (0.modules[humansize].SUFFIXES[1000]?! 指向 该 列表 。 

e  sys.modules['humansize'].SUFFIXES[1000][0] 即 SI 后 级 列表 的 第 一 个 元 素 : 'KB' o 
此 ， 整 个 替换 域 (6.modules[humansize].surFixEs[1000][0]) 最 后 都 被 两 个 字符 ke Es. 


格式 说 明 符 
但 是 ， 还 有 一 些 问题 我 们 没有 讲 到 ! 再 来 看 一 看 humansize.py 中 那 一 行 奇 怪 的 代码 : 


if size < multiple: 
return '{0:.1f} {1}'.format(size, suffix) 


{1} 会 被 传递 给 format) 方法 的 第 二 个 参数 替换 ， 即 suffix 。 但 是 {60: .1f} 是 什么 意思 
呢 ? 它 其 实 包含 了 两 方面 的 内 容 : {fe} 你 已 经 能 理解 ， :.1f 则 不 一 定 了 。 第 二 部 分 (包括 
冒号 及 其 后 边 的 部 分 ) 即 格 式 说 明 符 (format specifier)， 它 进一步 定义 了 被 替换 的 变量 应 该 如 
何 被 格式 化 。 


格式 说 明 符 的 允许 你 使 用 各 种 各 种 实用 的 方法 来 修饰 被 蔡 换 的 文本 ， 就 像 C 语 言 中 
的 printf) 函数 一 样 。 我 们 可 以 添加 使 用 需 填 充 (zero-padding)， 衬 距 (space- 
padding)， 对 齐 字符 串 (align strings)， 控 制 10 进 制 数 输 出 精度 ， 甚 至 将 数字 转换 成 16 进 
制 数 输出 。 


























在 替换 域 中 ， 冒 号 ( : ) 标 示 格 式 说 明 符 的 开始 。” .1 ”的 意思 是 四 舍 五 入 到 保留 一 们 小 数 
Ba. "of "的 意思 是 定点 数 《与 指数 标记 法 或 者 其 他 10 进 制 数 表示 方法 相对 应 ) 。 因 此 ， 如 果 
给 定 size 为 698.24 , suffix x 'GB', ， 那 么 格式 化 后 的 字符 串 将 是 '698.2 

GB' ， 因 为 698.24 被 四 舍 五 入 到 一 位 小 数 表示 ， 然 后 后 级 “GB" 再 被 追加 到 这 个 串 最 后 。 


>>> '(0:.1f) {1}'.format(698.24, 'GB') 
'698.2 GB' 


想 了 解 格式 说 明 符 的 复杂 细节 ， 请 参阅 Python 官方 文档 关于 格式 化 规范 的 迷你 语言 


其 他 前 用 字符 串 方法 


除了 格式 化 ， 关 于 字符 串 还 有 许多 其 他 实用 的 使 用 技巧 。 


. sult of years of scientif- 
. ic study combined with the 
. experience of years.''' 


['Finished files are the re-', 
'sult of years of scientif-', 
'ic study combined with the', 
'experience of years.'] 


finished files are the re- 
sult of years of scientif- 
ic study combined with the 
experience of years. 
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1. 我 们 可 以 在 Python 的 交互 式 shell 里 输入 多 行 (multiline) 字 符 串 。 一 旦 我 们 以 三 个 引号 标记 
多 行 字符 串 的 开始 ， 按 ENTER 键 ，Python shell 会 提示 你 继续 这 个 字符 串 的 输入 。 连 续 输 
入 三 个 结束 引号 以 终止 该 字符 串 的 输入 ， 再 融 ENTER 键 则 会 执行 该 条 命令 〈 在 当前 例子 
中 ， 把 这 个 字符 串 赋 给 变量 s ) 。 

2. splitlines() 方法 以 多 行 字符 串 作 为 输入 ， 返 回 一 个 由 字符 串 组 成 的 列表 ， 列 表 的 元 素 
即 原来 的 单行 字符 串 。 请 注意 ， 每 行 行 末 的 回 车 符 没有 被 包括 进去 。 

3. lower) 方法 把 整个 字符 串 转 换 成 小 写 的 。 (类 似 地 ， upper() 方法 执行 大 写 化 转换 操 
作 。) 

4. count() 方法 对 串 中 的 指定 的 子 串 进行 计数 。 是 的 ， 在 那 一 句 中 确实 出 现 了 6 个 字母 了 。 


还 有 一 种 经 常会 遇 到 的 情况 。 比 如 有 如 下 形式 的 键 - 值 对 列表 
keyi'-'valuei'& key2^-'value2 ， 我 们 需要 将 其 分 离 然 后 产生 一 个 这 样 形式 的 字 
典 {key1: valuei, key2: value2} o 


>>> query = 'user-pilgrim&database-master&password-PapayaWhip' 


>>> a8 list 
['user-pilgrim', 'database-master', 'password-PapayaWwhip'] 


>>> a list of lists 
[['user', 'pilgrim'], ['database', 'master'], ['password', 'Papayawhip']] 


>>> 8 dict 
('password': 'Papayawhip', 'user': 'pilgrim', 'database': 'master') 


1. split) 方法 使 用 一 个 参数 ， 即 指定 的 分 隔 符 ， 然 后 根据 这 个 分 隔 符 将 串 分 离 成 一 个 字 
符 串 列表 。 此 人 处， 分 隔 符 即 字符 & ”， 它 还 可 以 是 其 他 的 内 容 。 

2. 现在 我 们 有 了 一 个 字符 串 列表 ， 其 中 的 每 个 串 由 三 部 分 组 成 : 键 ， 等 号 和 值 。 我 们 可 以 
使 用 列表 解析 来 通 历 整个 列表 ， 然 后 利用 第 一 个 等 号 标记 将 每 个 字符 串 再 分 离 成 两 个 子 
$. (理论 上 ， 值 也 可 以 包含 等 号 标记 ， 如 果 执 行 'key=value=foo' .split('=') ， 那 么 我 
们 会 得 到 一 个 三 元 素 列表 ['key', 'value', 'foo'] o ) 

3. 最 后 ， 通 过 调用 dict) 画 数 Python 会 把 那个 包含 列表 的 列表 (list-of-lists) 转 换 成 字典 对 


o 


a 














上 一 个 例子 跟 解析 URL 的 请 求 参数 (query parameters) 很 相似 ， 但 是 真实 的 URL 解 析 实 
际 上 上 比 这 个 复杂 得 多 。 如 果 需 要 处 理 URL 请 求 参数 ， 我 们 最 好 使 
用 urllib.parse.parse qs() 加 数 ， 它 可 以 处 理 一 些 不 常见 的 边缘 情况 。 








字符 串 的 分 片 


定义 一 个 字符 串 以 后 ， 我 们 可 以 截取 其 中 的 任意 部 分 形成 新 串 。 这 种 操作 被 称 作 字符 串 的 分 
片 (sjice)。 字 符 串 分 片 跟 列表 的 分 片 (slicing lists) 原 理 是 一 样 的 ， 从 直观 上 也 说 得 通 ， 因 为 字 
符 串 本 身 就 是 一 些 字符 序列 。 


>>> a string = 'My alphabet starts where your alphabet ends.' 
'alphabet' 

'alphabet starts where your alphabet en' 

'my' 

'My alphabet starts' 


' where your alphabet ends. ' 


1. 我 们 可 以 通过 指定 两 个 索引 值 来 获得 原 字符 串 的 一 个 “slice”。 该 操作 的 返回 值 是 一 个 新 
串 ， 依 次 包含 了 从 原 串 中 第 一 个 索引 位 置 开始 ， 直 到 但 是 不 包含 第 二 个 索引 位 置 之 间 的 
所 有 字符 。 

2， 就 像 给 列表 做 分 片 一 样 ， 我 们 也 可 以 使 用 负 的 索引 值 来 分 片 字 符 串 。 

3. 字符 串 的 下 标 索 引 是 从 0 开始 的 ， 所 以 a_string[6:2] 会 返回 原 字符 串 的 前 两 个 元 素 ， 
从 a string[0] 开始 ， 直到 但 不 包括 a string[2] o 

4. 如 果 省 略 了 第 一 个 索引 值 ，Python 会 默认 它 的 值 为 0。 所 


以 a string[:18] ER a string[0:18] 的 效果 是 一 样 的 ， 因 为 从 0 开始 是 被 Python 默认 的 。 
同样 地 ， 如 果 第 2 个 索引 值 是 原 字 符 串 的 长 度 ， 那 么 我 们 也 可 以 省 略 它 。 所 以 ， 在 此 

A^ a string[18:] ER a_string[18:44] 的 结果 是 一 样 的 ， 因为 这 个 串 的 刚好 有 44 个 字符 。 
这 种 规则 存在 某 种 有 趣 的 对 称 性 。 在 这 个 由 44 个 字符 组 成 的 串 中 ， a_string[:18] 会 返回 
前 18 个 字符 ， 而 a string[18:] 则 会 返回 除了 前 18 个 字符 以 外 字符 串 的 剩余 部 分 。 事 实 
上 a_string[: n ] 总 是 会 返回 串 的 前 n 个 字符 ， 而 a string[ n :] 则 会 返回 其 余 的 部 
分 ， 这 与 串 的 长 度 无 关 。 


String vs. Bytes 


字 节 


即 字 节 ; 字符 是 一 种 抽象 。 一 个 不 可 变 (immutable) 的 Unicode 编 码 的 字符 序列 叫 


做 strng。 一 串 由 0 到 255 之 间 的 数字 组 成 的 序列 叫做 bytes 对 象 。 


>>> by 
b'abcde' 


«class 'bytes'» 


5 


>>> by 
b'abcdeNxff' 


6 


97 


Traceback (most recent call last): 


File "«stdin»", line 1, in «module» 


TypeError: 'bytes' object does not support item assignment 


-— 


oo Ro wv 


使 用 “byte 字 面值 "语法 b'' 来 定义 bytes 对 象 。byte 字 面值 里 的 每 个 字 节 可 以 是 ASCII 字 
符 或 者 是 从 NX00 到 \xff 编码 了 的 16 进 制 数 。 

bytes 对 象 的 类 型 是 bytes 。 

跟 列 表 和 字符 串 一 样 ， 我 们 可 以 通过 内 置 范 数 len() 来 获得 bytes 对 象 的 长 度 。 

使 用 + 操作 符 可 以 连接 bytes 对 象 。 操 作 的 结果 是 一 个 新 的 bytes 对 象 。 

连接 5 个 字 节 的 和 1 个 字 节 的 bytes 对 象 会 返回 一 个 6 字 节 的 bytes 对 象 。 

一 如 列表 和 字符 串 ， 可 以 使 用 下 标记 号 来 获取 bytes 对 象 中 的 单个 字 节 。 对 字符 串 做 这 
种 操作 获得 的 元 素 仍 为 字符 串 ， 而 对 bytes 对 象 做 这 种 操作 的 返回 值 则 为 整数 。 确 切 地 
说 ， 是 0-255 之 间 的 整数 。 

bytes 对 象 是 不 可 变 的 ; 我 们 不 可 以 给 单个 字 节 赋 上 新 值 。 如 果 需 要 改变 某 个 字 节 ， 可 
以 组 合 使 用 字符 串 的 切片 和 连接 操作 (效果 跟 字 符 串 是 一 样 的 )， 或 者 我 们 也 可 以 

将 bytes 对 象 转 换 为 bytearray 对 象 。 


>>> by = b'abcd'*x65' 


>>> barr 
bytearray(b'abcde') 


5 


>>> barr 
bytearray(b'fbcde') 


1. TAAAK bytearray() 来 完成 从 bytes 对 象 到 可 变 的 bytearray 对 象 的 转换 。 

2. 所 有 对 bytes 对 象 的 操作 也 可 以 用 在 bytearray 对 象 上 。 

3， 有 一 点 不 同 的 就 是 ， 我 们 可 以 使 用 下 标 标 记 给 bytearray 对 象 的 某 个 字 节 赋值 。 并 且 ， 
这 个 值 必须 是 0-255 之 间 的 一 个 整数 。 


我 们 决 不 应 该 这 样 混用 bytes 和 strings。 


>>> by = b'd' 
>>> s = 'abcde' 


Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
TypeError: can't concat bytes to str 
Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
TypeError: Can't convert 'bytes' object to str implicitly 


1 


1. 不 能 连接 bytes 对 象 和 字符 串 。 他 们 两 种 不 同 的 数据 类 型 。 

2. 也 不 允许 针对 字符 串 中 bytes 对 象 的 出 现 次 数 进 行 计 数 ， 因 为 串 里 面 根 本 没有 bytes o 
字符 串 是 一 系列 的 字符 序列 。 也 许 你 是 想 要 先 把 这 些 字 节 序列 通过 某 种 编码 方式 进行 解 
码 获得 字符 串 ， 然 后 对 该 字符 串 进行 计数 ? 可以， 但 是 需要 显 式 地 指明 它 。Python 3 不 
会 隐 含 地 将 bytes 转 换 成 字符 串 ， 或 者 进行 相反 的 操作 。 

3. 好 巧 啊 ... 这 一 行 代码 刚好 给 我 们 演示 了 使 用 特定 编码 方式 将 bytes 对 象 转 换 成 字符 串 后 
该 串 的 出 现 次 数 。 


所 以 ， 这 就 是 字符 串 与 字 节 数组 之 间 的 联系 了 : bytes 对 象 有 一 个 decode() 方法 ， 它 使 用 某 
种 字符 编码 作为 人 参数， 然后 依照 这 种 编码 方式 将 bytes 对 象 转换 为 字符 串 ， 对 应 地 ， 字 符 串 
有 一 个 encode() 方法 ， 它 也 使 用 某 种 字符 编码 作为 参数 ， 然 后 依照 它 将 串 转 换 为 bytes 对 
象 。 在 上 一 个 例子 中 ， 解 码 的 过 程 相对 直观 一 些 一 使 用 ASCII 编 码 将 一 个 字 节 序列 转换 为 字 
符 串 。 同 样 的 过 程 对 其 他 的 编码 方式 依然 有 效 一 传统 的 〈 非 Unicode) 编码 方式 也 可 以 ， 只 
要 它们 能 够 编码 串 中 的 所 有 字符 。 


>>> len(a string) 
9 


>>> by 

b'Nxe6Nxb7Nxb1Nxe5Nx85Nxa5 Python' 
>>> len(by) 

13 


>>> by 

b'Nxc9NxeeNxc8Nxeb Python 
>>> len(by) 

11 


>>> by 

b'Nxb2^Nxa4J Python' 
>>> len(by) 

11 


>>> roundtrip 

' 深 入 Python' 

>>> a_string == roundtrip 
True 


1. a_string 是 一 个 字符 串 。 它 有 9 个 字符 。 

by 是 一 个 bytes 对 象 。 它 有 13 个 字 节 。 它 是 通过 a string 使 用 UTF-8 编 码 而 得 到 的 一 

串 字 节 序 列 。 

3. by 还 是 一 个 bytes 对 象 。 它 有 11 个 字 节 。 它 是 通过 a_string 使 用 GB18030 编 码 而 得 到 
的 一 串 字 节 序列 。 

4 此 时 的 by 仍旧 是 一 个 bytes 对 象 ， 由 11 个 字 节 组 成 。 它 又 是 一 种 完全 不 同 的 字 节 序 
列 ， 我 们 通过 对 a string 使 用 Big5 编 码 得 到 。 

5. roundtrip 是 一 个 字符 串 ， 共有 9 个 字符 。 它 是 通过 对 by 使 用 Big5 解 码 算 法 得 到 的 一 个 
字符 序列 。 并 且 ， 从 执行 结果 可 以 看 出 ， roundtrip 与 a_string 是 完全 一 样 的 。 


N 


补充 内 容 : Python 源码 的 编码 方式 


Python 3 会 假定 我 们 的 源码 一 即 .py 文件 一 使 用 的 是 UTF-8 编 码 方式 。 


Python 2 里 ， .py 文件 默认 的 编码 方式 为 ASCIIl。Python 3 的 源码 的 默认 编码 方式 为 
UTF-8 


如 果 想 使 用 一 种 不 同 的 编码 方式 来 保存 Python 代码 ， 我 们 可 以 在 每 个 文件 的 第 一 行 放置 编码 
声明 (encoding declaration)。 以 下 声明 定义 .py 文件 使 用 windows-1252 编 码 方式 : 


4 -*- coding: windows-1252 -*- 


从 技术 上 说 ， 字 符 编 码 的 重 载 声明 也 可 以 放 在 第 二 行 ， 如 果 第 一 行 被 类 UNIX 系 统 中 的 hash- 
bang 命 邻 占用 了 。 


Dive Into Python3 


4!/usr/bin/python3 
# -*- coding: windows-1252 -*- 


了 解 更 多 信息 ， 请 参阅 PEP 263: 指定 Python 源码 的 编码 方式 。 


进一步 阅读 
关于 Python 中 的 Unicode : 


e Python Unicode HOWTO 
e Python 3 中 的 新 鲜 事 : 文本 vs. 数据 ， 而 非 Unicode vs. 8-bit 


关于 Unicode 本 身 : 


e 每 个 软件 开发 人 员 应 该 无 条 件 、 至 少 掌握 的 关于 Unicode 和 字符 集 的 知识 


e 关于 Unicode 的 优势 
e 关于 字 元 字 串 (character string) 
e 字符 vs. ZP 


关于 其 他 的 编码 方式 : 


e XML 文档 的 编码 方式 
e HTML 文 档 的 编码 方式 


关于 字符 串 及 其 格式 化 : 


€ string 一 常用 字符 串 操 作 

。 格式 化 字符 串 的 语法 

。 关于 格式 化 规范 的 迷你 语言 

。 PEP 3101: 字符 串 格 式 化 高 级 应 用 
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Chapter 5 正则 表达 式 


" Some people, when confronted with a problem, think “| know, lII use regular 
expressions." Now they have two problems. " — Jamie Zawinski 


VK AN 


所 有 的 现代 编程 语言 都 有 内 建 字 符 串 义理 函数 。 在 python 里 查找 ， 蔡 换 字 符 串 的 方法 是 : 
index()、 find()、split()、 count()、 replace() 等 。 但 这 些 方法 都 只 是 最 简单 的 字符 串 处 理 。 上 比 
如 : 用 index() 方 法 查找 单个 子 字 符 串 ， 而 且 查 找 总 是 区 分 大 小 写 的 。 为 了 使 用 不 区 分 大 小 写 
的 查找 ， 可 以 使 用 s.lower() 或 者 s.upper()， 但 要 确认 你 查找 的 字符 串 的 大 小 写 是 匹配 的 。 
replace() 和 split() 方法 有 相同 的 限制 。 


如 果 使 用 string 的 方法 就 可 以 达到 你 的 目的 ， 那 么 你 就 使 用 它们 。 它 们 速度 快 又 简单 ， 并 且 很 
容易 阅读 。 但 是 如 果 你 发 现 自己 要 使 用 大 量 的 if 语 句 ， 以 及 很 多 字符 串 函 数 来 处 理 一 些 特例 ， 
或 者 说 你 需要 组 合 调 用 split() 和 join) 来 切片 、 合 并 你 的 字符 串 ， 你 就 应 该 使 用 正则 表达 式 。 


正则 表达 式 有 强大 并 且 标 准 化 的 方法 来 处 理 字 符 串 查找 、 蔡 换 以 及 用 复 条 模式 来 解析 文本 。 
正则 表达 式 的 语法 比 我 们 的 程序 代码 更 紧 姿 ， 格 式 更 严格 ， 比 用 组 合 调用 字符 串 义 理 画 数 的 
方法 更 具有 可 读 性 。 甚 至 你 可 以 在 正则 表达 式 中 族人 注释 信息 ， 这 样 就 可 以 使 它 有 自 文 档 化 
的 功能 。 
如 果 你 在 其 他 语言 中 使 用 过 正则 表达 式 (比如 perl，javascript 或 者 php) ，python 的 正 
则 表达 式 语法 和 它们 的 很 像 。 阅 读 re 模 块 的 摘要 信息 可 以 了 解 到 一 些 处 理事 数 以 及 它们 
参数 的 一 些 概况 。 


案例 研究 : 街道 地 址 


下 面 一 系列 的 示例 的 灵感 来 自 于 现实 生活 中 我 几 年 前 每 天 的 工作 。 我 需要 把 一 些 街道 地 址 导 
入 一 个 新 的 系统 ， 在 这 之 前 我 要 从 一 个 遗留 的 老 系 统 中 清理 和 标准 化 这 些 街道 地 址 。 下 面 这 
个 例子 展示 我 怎么 解决 这 个 问题 。 


>>> s = '100 NORTH MAIN ROAD' 


'100 NORTH MAIN RD.' 
>>> s = '100 NORTH BROAD ROAD 


'100 NORTH BRD. RD.' 
'100 NORTH BROAD RD.' 


'100 NORTH BROAD RD.' 


.我 的 目的 是 要 标准 化 街道 的 格式 。 而 'ROAD:' 总 是 在 .RD 的 前 面 。 刚 开始 我 以 为 只 需要 简 
单 的 使 用 string 的 replace() 方 法 就 可 以 。 所 有 的 数据 都 是 大 写 的 ， 因 此 不 会 出 现 大 小 写 不 
匹配 的 问题 。 而 查找 的 字符 串 'ROAD' 也 是 一 个 常量 。 在 这 个 简单 的 例子 中 s.replace() 可 
以 很 好 的 工作 。 

. 事实 上 ， 不 幸 的 是 ， 我 很 快 发 现 一 个 问题 ， 在 一 些 地址 中 'ROAD ' 出 现 了 两 次 ， 一 个 是 前 
面 的 街道 名 里 带 了 只 OAD'， 一 个 是 'ROAD' 本 身 。repalce() 发 现 了 两 个 就 把 他 们 都 给 替换 
掉 了 。 这 意味 着 ， 我 的 地 址 错 了 。 

. 为 了 解决 地 址 中 出 现 超 过 一 个 'ROAD' 子 字符 串 的 问题 ， 你 可 能 会 这 人 么 考虑 : 只 在 地 址 的 
最 后 四 个 字符 中 查找 和 替换 *ROAD' (s[-4:]) 。 然 后 把 剩 下 的 字符 串 独 立 开 来 处 理 
(s[:-4]) 。 这 个 方法 很 笨拙 。 上 比如， 这 个 方法 会 依赖 于 你 要 蔡 换 的 字符 串 长 度 (如 果 你 
用 '.ST' 来 替换 ‘STREET”， 就 需要 在 s[-6:] 中 查找 /STREET”， 然 后 再 取 s[:-6]。 你 难道 还 想 
半年 后 回来 继续 修改 BUG ? 反正 我 是 不 想 。 

. 是 时 候 转 换 到 正则 表达 式 了 。 在 python 中 ， 所 有 的 正则 表达 式 相 关 功 能 都 包含 在 re 模块 
中 。 

.注意 第 一 个 参数 愉 OAD$'， 这 是 一 个 匹配 'ROAD' 太 仅 出 现在 字符 串 结 尾 的 正则 表达 式 。$ 
表示 "字符 串 结尾 "。 〈 还 有 一 个 相应 的 表示 "字符 串 开 头 "的 字符 ^) 。 正 则 表达 式 模 块 的 
re.sub() 函 数 可 以 做 字符 串 蔡 换 ， 它 在 字符 串 s 中 用 正则 表达 式 'ROAD 和 ' 来 搜索 并 替换 

成 RD.'。 它 只 会 匹配 字符 串 结尾 的 'ROAD'’， 而 不 会 匹配 到 ‘BROAD’ 中 的 ROAD'’， 因 为 这 
种 情况 它 在 字符 串 的 中 间 。 


^ 匹配 字符 串 开始 . $ 匹配 字符 串 结尾 


继续 我 的 处 理 街道 地 址 的 故事 。 我 很 快 发 现 ， 在 之 前 的 例子 中 ， 匹 配 地 址 结尾 的 'ROAD' 不 够 
好 。 因 为 并 不 是 所 有 的 地 址 结尾 都 有 它 。 一 些 地 址 简单 的 用 一 个 街道 名 结尾 。 大 部 分 的 情况 
下 不 会 有 问题 ， 但 如 果 街 道 的 名 字 就 叫 'BROAD'， 这 个 时 候 ， 正 则 表达 式 会 匹配 

到 ‘BROAD’ 的 最 后 4 个 字符 ， 这 并 不 是 我 想 要 的 。 


>>> s = '100 BROAD' 
>>> re.sub('ROAD$', 'RD.', s) 
'100 BRD.' 


'100 BROAD' 


'100 BROAD' 
>>> s = '100 BROAD ROAD APT. 3' 


'100 BROAD ROAD APT. 3' 


'100 BROAD RD. APT 3' 


1. 我 真正 想 要 的 ROAD’”， 必 须 是 匹配 到 字符 串 结 尾 ， 并 且 是 独立 的 词 (他 不 能 是 某 个 比较 


长 的 词 的 一 部 分 ) 。 为 了 在 正则 表达 式 中 表达 这 个 独立 的 词 ， 你 可 以 使 用 \b'。 它 的 意思 
是 “在 右边 必须 有 一 个 分 隔 符 "。 在 python 中 ， 比 较 复 杀 的 是 \ 字 符 必 须 被 转 义 ， 这 有 的 时 
候 会 导致 \* 字 符 传染 ( 想 想 可 能 还 要 对 \ 字 符 做 转 义 的 情况 ) 。 这 也 是 为 什么 perl 中 的 正则 
表达 式 比 python 的 简单 的 原因 之 一 。 另 一 方面 ，perl 会 在 正则 表达 式 中 混合 其 他 非 正 则 表 
达 式 的 语法 ， 如 果 出 现 了 bug， 那 么 很 难 区 分 这 个 bug 是 在 正则 表达 式 中 ， 还 是 在 其 他 的 


语法 部 分 。 

2. 为 了 解决 \ 字 符 传 染 的 问题 ， 可 以 使 用 原始 字符 串 。 这 只 需要 在 字符 串 的 前 面 添加 一 个 字 
符 TT"。 它 告诉 python， 字 符 串 中 没有 任何 字符 需要 转 义 。t 是 一 个 制 表 符 ， 但 rt 只 是 一 
个 字符 只 紧 跟 着 一 个 字符 t。 我 建议 在 处 理 正 则 表达 式 的 时 候 总 是 使 用 原始 字符 串 。 否 
则 ， 会 因为 理解 正则 表达 式 而 消耗 大 量 时 间 (本 身 正则 表达 式 就 已 经 够 让 人 困惑 的 
T) 

3， 哎 ， 不 幸 的 是 ， 我 发 现 了 更 多 的 地 方 与 我 的 逮 辑 背道而驰 。 街 道 地 址 包含 了 独立 的 单 
词 'ROAD'， 但 并 不 是 在 字符 串 尾 ， 因 为 街道 后 面 还 有 个 单元 号 。 因 为 "ROAD' 并 不 是 最 靠 
后 ， 就 不 能 匹配 ， 因 此 re.sub() 最 后 没有 做 任何 的 替换 ， 只 是 返回 了 一 个 原始 的 字符 串 ， 
这 并 不 是 你 想 要 的 。 

4. 为 了 解决 这 个 问题 ， 我 删除 了 正则 表达 式 尾 部 的 $， 然 后 添加 了 一 个 \b。 现 在 这 个 正则 表 
达 式 的 意思 是 “在 字符 串 的 任意 位 置 匹 配 独 立 的 ROAD' 单 词 "不 管 是 在 字符 串 的 结束 还 是 
开始 ， 或 者 中 间 的 任意 一 个 位 置 。 


案例 研究 : 罗马 数字 


你 肯定 见 过 罗马 数字 ， 即 使 你 不 认识 他 们 。 你 可 能 在 版 权 信 息 、 老 电影 、 电 视 、 大 学 或 者 图 
书馆 的 题词 墙 看 到 (用 Copyright MCMXLVI" 表示 版 权 信 息 ， 而 不 是 用 “Copyright 1946") ， 
你 也 可 能 在 大 纲 或 者 目录 参考 中 看 到 他 们 。 这 种 系统 的 数字 表达 方式 可 以 追溯 到 罗马 帝国 
(因此 而 得 名 ) 。 


在 罗马 数字 中 ， 有 七 个 不 同 的 数字 可 以 以 不 同 的 方式 结合 起 来 表示 其 他 数字 。 


e I=1 
e v-5 
e x- 10 
e L- 50 
e C = 108 
e D = 500 


e M = 1000 
下 面 是 几 个 通常 的 规则 来 构成 罗马 数字 : 


e 大 部 分 时 候 用 字符 相 嫩 加 来 表示 数字 。| 是 1， 1 是 2， 川 是 3。VI 是 6 (挨个 看 来 ， 是 “5 和 
1 的 组 合 ) ，Vll 是 7，Vlll 是 8。 

e 含有 10 的 字符 (I, X, CHM) 最 多 可 以 重复 出 现 三 个 。 为 了 表示 4， 必 须 用 同一 位 数 的 
下 一 个 更 大 的 数字 5 来 减 去 一 。 不 能 用 |l 川 来 表示 4， 而 应 该 是 IV (意思 是 比 5 小 1) 。40 写 
做 XL ( 比 50 小 10) ，41 写 做 XLI，42 写 做 XLIl，43 写 做 XLIll，44 写 做 XLIV ( 比 50 小 10 并 
且 比 5 小 1) 。 

e 有 些 时 候 表 示 方 法 恰恰 相反 。 为 了 表示 一 个 中 间 的 数字 ， 需 要 从 一 个 最 终 的 值 来 减 。 比 
如 : 9 需要 从 10 来 减 : 8 是 VIll， 但 9 确 是 |X 〈 比 10 小 1) ， 并 不 是 VII| (| 字符 不 能 重复 4 
次 ) 。90 是 XC，900 是 CM。 


e 表示 5 的 字符 不 能 在 一 个 数字 中 重复 出 现 。10 只 能 用 X 表 示 ， 不 能 用 VV 表示 。100 只 能 用 
C 表 示 ， 而 不 是 LL。 

e 罗马 数字 是 从 左 到 右 来 计算 ， 因 此 字符 的 顺序 非常 重要 。DC 表 示 600， 而 CD 完全 是 另 一 
个 数字 400 ( 比 500 小 100) 。Cl 是 101，1C 不 是 一 个 罗马 数字 (因为 你 不 能 从 100 减 1， 你 
只 能 写成 XCIX， 表 示 比 100 小 10， 且 比 10 小 1) 。 


检查 干 位 数 


怎么 验证 一 个 字符 串 是 否 是 一 个 合法 的 罗马 数字 呢 ? 我 们 可 以 每 次 取 一 个 字符 来 处理 。 因 为 
罗马 数字 总 是 从 高 位 到 低位 来 书写 。 我 们 从 最 高 位 的 千 位 开始 。 表 示 1000 或 者 更 高 的 位 数 
值 ， 方 法 是 用 一 系列 的 M 来 重复 表示 。 


>>> import re 

« sre.SRE Match object at 0106FB58> 
« sre.SRE Match object at 0106C290» 
« sre.SRE Match object at 0106AA38» 


« sre.SRE Match object at 0106F4A8» 


1. 这 个 模式 有 三 部 分 。^ 表 示 必 须 从 字符 串 开 头 匹 配 。 如 果 没 有 指定 ^， 这 个 模式 将 在 任意 位 
置 匹配 M， 这 个 可 能 并 不 是 你 想 要 的 。 你 需要 确认 是 否 要 匹配 字符 串 开 始 的 M， 还 是 匹配 
单个 M 字 符 。 因 为 它 重 复 了 三 次 ， 你 要 在 一 行 中 的 任意 位 置 匹 配 0 到 3 次 的 M 字 符 。$4 匹 配 
字符 串 结束 。 当 它 和 匹配 字符 串 开 始 的 ^ 一 起 使 用 ， 表 示 匹 配 整个 字符 串 。 没 有 任何 一 个 
字符 可 在 M 的 前 面 或 者 后 面 。 

2，re 模 块 最 基本 的 方法 是 search() 函 数 。 它 使 用 正则 表达 式 来 匹配 字符 串 (M) 。 如 果 成 功 
匹配 ，search() 返 回 一 个 匹配 对 象 。 匹 配对 象 中 有 很 多 的 方法 来 描述 这 个 匹配 结果 信息 。 
如 果 没 有 匹配 到 ，search() 返 回 None。 你 只 需要 关注 search() 函 数 的 返回 值 就 可 以 知道 是 
否 匹 配 成 功 。'M' 被 正则 表达 式 匹 配 到 了 。 原因 是 正则 表达 式 中 的 第 一 个 可 选 的 M 匹 配 成 
功 ， 第 二 个 和 第 三 个 被 忽略 掉 了 。 

3.“MM' 匹 配 成 功 。 因 为 正则 表达 式 中 的 第 一 个 和 第 二 个 可 选 的 M 匹 配 到 ， 第 三 个 被 忽略 。 

4. “MMM’ 匹 配 成 功 。 因 为 正则 表达 式 中 的 所 有 三 个 M 都 匹配 到 。 

5.“MMMM' 匹 配 失败 。 正 则 表达 式 中 所 有 三 个 M 都 匹配 到 ， 接 着 正则 表达 式 试 图 匹配 字符 串 
结束 ， 这 个 时 候 失 败 了 。 因 此 search() 画 数 返回 None。 

6. 有趣 的 是 ， 空 字符 串 也 能 匹配 成 功 ， 因 为 正则 表达 式 中 的 所 有 M 都 是 可 选 的 。 


检查 百 位 数 
? 表示 匹配 是 可 选 的 
百 位 的 匹配 比 千 位 复 来 。 根 据 值 的 不 同 ， 会 有 不 同 的 表达 方式 。 


e 100 = C 


@ 200 = CC 
e 300 = CCC 
e 400 = CD 
e 500 = D 
* 600 = DC 
@ 700 = DCC 
* 800 = DCCC 


e 900 = CM 


因此 会 有 四 种 可 能 的 匹配 模式 : 


。 可 能 有 0 到 3 个 字符 C 〈0 个 表示 和 干 位 为 0) 。 
e DD 紧 跟 在 0 到 3 个 字符 C 的 后 面 。 


这 两 个 模式 还 可 以 组 合 起 来 表示 : 
e 一 个 可 选 的 D， 后 面 跟 着 0 到 3 个 字符 C。 


下 面 的 例子 展示 了 怎样 在 罗马 数字 中 验证 百 位 。 


>>> import re 

« sre.SRE Match object at 01070390» 
« sre.SRE Match object at 01073A50» 
« sre.SRE Match object at 010748A8» 


« sre.SRE Match object at 01071D98» 


1.， 这 个 正则 表达 式 的 写法 从 上 面 千 位 的 匹配 方法 接着 往 后 写 。 检 查 字 符 串 开始 (^) ， 然 后 
是 千 位 ， 后 面 才 是 新 的 部 分 。 这 里 用 圆 括号 定义 了 三 个 不 同 的 匹配 模式 ， 他 们 是 用 坚 线 
分 隔 的 : CM，CD 和 D?C?C?C? (这 表示 是 一 个 可 选 的 D， 以 及 紧 跟 的 0 到 3 个 可 选 的 字 
符 C) 。 正 则 表达 式 按 从 左 到 右 的 顺序 依次 匹配 ， 如 果 第 一 个 CM 匹 配 成 功 ， 用 坚 线 分 隔 
这 几 个 中 的 后 面 其 他 的 都 会 被 忽略 。 

2.“MCM' 匹 配 成 功 。 因 为 第 一 个 M 匹 配 到 ， 第 二 个 和 第 三 个 M 被 忽略 。 后 面 的 CM 匹 配 到 
(因此 后 面 的 CD 和 D?C?C?C? 根 本 就 不 被 考虑 匹配 了 ) 。MCM 在 罗马 数字 中 表示 
1900。 

3. “MD 匹配 成 功 。 因 为 第 一 个 M 匹 配 到 ， 第 二 个 和 第 三 个 M 被 忽略 。 然 后 D?C?C?C? 匹 配 到 
D (后 面 的 三 个 C 都 是 可 选 匹 配 的 ， 都 被 忽略 掉 ) 。MD 在 罗马 数字 中 表示 1500。 

4. ‘MMMCCC’ 匹 配 成 功 。 因 为 前 面 三 个 M 都 匹配 到 。 后 面 的 D?C?C?C? 匹 配 CCC (D 是 可 选 
的 ， 它 被 忽略 了 ) 。MMMCCC 在 罗马 数字 中 表示 3300。 

5.“MCMC:' 匹 配 失败 。 第 一 个 M 被 匹配 ， 第 二 个 和 第 三 个 M 被 忽略 ， 然 后 CM 匹 配 成 功 。 紧 接 
着 $ 试 图 匹配 字符 串 结束 ， 但 后 面 是 C， 匹 配 失败 。C 也 不 能 被 D?C?C?C? 匹 配 到 ， 因 为 


CM 和 它 只 能 匹配 其 中 一 个 ， 而 CM 已 经 匹配 过 了 。 
6 有趣 的 是 ， 空 字符 串 仍 然 可 以 匹配 成 功 。 因 为 所 有 的 M 都 是 可 选 的 ， 都 可 以 被 忽略 。 并 且 
后 面 的 D?C?C?C? 也 是 这 种 情况 。 


哈哈 ， 看 看 正则 表达 式 如 此 快速 的 处 理 了 这 些 邻 人 厌恶 的 东西 。 你 已 经 可 以 找到 千 位 数 和 百 
位 数 了 |! 后 面 的 十 位 和 个 位 的 处 理 和 千 位 、 百 位 的 处 理 是 一 样 的 。 但 我 们 可 以 看 看 怎么 用 另 
一 种 方式 来 写 这 个 正则 表达 式 。 


使 用 语法 {n,m} 
{1,4} 匹配 1 到 4 个 前 面 的 模式 


在 上 一 节 中 ， 你 处 理 过 同样 的 字符 可 以 重复 0 到 3 次 的 情况 。 实 际 上 ， 还 有 另 一 种 正则 表达 式 
的 书写 方式 可 以 表达 同样 的 意思 ， 而 且 这 种 表达 方式 更 具有 可 读 性 。 首 先 看 看 我 们 在 前 面 例 
子 中 使 用 的 方法 。 


>>> Import re 
>>> pattern = '^M?M?M?$' 


« sre.SRE Match object at 0x008EE090> 
>>> pattern = '^M?M?M?$' 


« sre.SRE Match object at OxOO08EEBA48» 
>>> pattern = '^M?M?M?$' 


« sre.SRE Match object at 0x008EE090> 


22» 


1. 正则 表达 式 匹 配 字符 串 开 始 ， 然 后 是 第 一 个 可 选 的 字符 M， 但 没有 第 二 个 和 第 三 个 M C& 
问题 ! 因为 他 们 是 可 选 的 ) ， 接 着 是 字符 串 结尾 。 

2. 正则 表达 式 匹 配 字符 串 开 始 ， 然 后 是 第 一 个 和 第 二 个 M， 第 三 个 被 忽略 (因为 它 是 可 选 
的 ) ， 最 后 匹配 字符 串 结尾 。 

3. 正则 表达 式 匹 配 字符 串 开 始 ， 然 后 是 三 个 M， 接 着 是 字符 串 结尾 。 

4. 正则 表达 式 匹 配 字符 串 开始 ， 然 后 是 三 个 M， 但 匹配 字符 串 结 尾 失 败 (因为 后 面 还 有 个 
M) 。 因 此 ， 这 次 匹配 返回 None。 





« sre.SRE Match object at 0x008EEB48> 
« sre.SRE Match object at 0x008EE090> 
« sre.SRE Match object at OxOO08EEDA8» 


22» 


1， 这 个 正则 表达 式 的 意思 是 "匹配 字符 串 开始 ， 然 后 是 任意 的 0 到 3 个 M 字 符 ， 再 是 字符 串 结 
尾 "。0 和 3 的 位 置 可 以 写 任 意 的 数字 。 如 果 你 想 表 示 可 以 匹配 的 最 小 次 数 为 1 次 ， 最 多 为 3 
次 M 字 符 ， 可 以 写成 M{1,3}。 


2， 匹 配 字符 串 开始 ， 然 后 匹配 了 1 次 M， 这 在 0 到 3 的 范围 内 ， 接 着 是 字符 串 结尾 。 

3. 匹配 字符 串 开 始 ， 然 后 匹配 了 2 次 M， 这 在 0 到 3 的 范围 内 ， 接 着 是 字符 串 结尾 。 

4.， 匹配 字符 串 开始 ， 然 后 匹配 了 3 次 M， 这 在 0 到 3 的 范围 内 ， 接 着 是 字符 串 结尾 。 

5， 匹 配 字符 串 开始 ， 然 后 匹配 了 3 次 M， 这 在 0 到 3 的 范围 内 ， 但 无 法 匹配 后 面 的 字符 串 结 
尾 。 正 则 表达 式 在 字符 串 结尾 之 前 最 多 人 允许 匹配 3 次 M， 但 这 里 有 4 个 。 因 此 本 次 匹配 返 
回 None。 

检查 十 位 和 个 位 


现在 ， 我 们 继续 解释 正则 表达 式 匹 配 罗马 数字 中 的 十 位 和 个 位 。 下 面 的 例子 是 检查 十 位 。 


>>> pattern = '^M?M?M?(CM|CD|D?C?C?C?) (XC|XL | L?X?X?X? )$' 
« sre.SRE Match object at OxOO08EEBA48» 
« sre.SRE Match object at OxOO08EEBA48» 
« sre.SRE Match object at OxOO08EEBA48» 
« sre.SRE Match object at OxOO08EbEEBA48» 


22» 


1. 匹配 字符 串 开 始 ， 然 后 是 第 一 个 可 选 的 M， 接 着 是 CM，XL， 以 及 字符 串 结尾 。 记 住 : 
(AIBIC) 的 意思 是 “只 匹配 A，B 或 者 C 中 的 一 个 "。 你 匹配 了 XL， 因 此 XC 和 L?X?X?X? 被 
忽略 ， 紧 接着 将 检查 字符 串 结尾 。MCMXL 在 罗马 数字 中 表示 1940。 

2 匹配 字符 串 开 始 ， 然 后 是 第 一 个 可 选 的 M， 接 着 是 CM。 后 面 的 L 被 L?X?X?X? 匹 配 ， 这 里 
忽略 掉 L 后 面 所 有 的 X。 然 后 检查 字符 串 结尾 。MCML 在 罗马 数字 中 表示 1950。 

3. 匹配 字符 串 开 始 ， 然 后 是 第 一 个 可 选 的 M， 接 着 是 CM， 还 有 可 选 的 L 以 及 第 一 个 X， 跳 过 
后 面 的 第 二 个 和 第 三 个 X。 然 后 检查 字符 串 结尾 。MCMLX 表 示 1960。 

4， 匹 配 字符 串 开 始 ， 然 后 是 第 一 个 可 选 的 M， 接 着 是 CM， 还 有 可 选 的 L 以 及 所 有 的 三 个 X。 
然后 是 字符 串 结尾 。MCMLXXX 表 示 1980。 

5， 匹 配 字符 串 开始 ， 然 后 是 第 一 个 可 选 的 M， 接 着 是 CM， 还 有 可 选 的 L 以 及 所 有 的 三 个 X。 
但 匹配 字符 串 结尾 失败 。 因 为 后 面 还 有 一 个 X。 整 个 匹配 失败 ， 返 回 None。MCMLXXXX 
不 是 一 个 合法 的 罗马 数字 。 


(AlB) 匹配 A 模 式 或 者 B 模 式 中 的 一 个 
个 位 数 的 匹配 是 同样 的 模式 ， 我 会 告诉 你 细节 以 及 最 终结 果 。 


>>> pattern = '^M?M?M?(CM|CD|D?C?C?C?) (XC | XL | L2X?X?X?) (IX | IV| V?I?1?I?)$' 


使 用 {n,m} 的 语法 来 替代 上 面 的 写法 会 是 什么 样子 呢 ?下 面 的 例子 展示 了 这 种 新 的 语法 。 


>>> pattern = '^M[0,3)(CM|CD|D?C(0, 3) ) (XC|XL|L?X(0, 31) (IX| IV| V?1(0, 3) )$' 
« sre.SRE Match object at 0x008EEB48> 
« sre.SRE Match object at OxOO08bEEBA48» 
« sre.SRE Match object at 0x008EEB48> 


« sre.SRE Match object at 0x008EEB48> 


1.，^ 匹 配 字符 串 开 始 ， 然 后 表达 式 M{0,3} 可 以 匹配 0 到 3 个 的 M。 这 里 只 能 匹配 一 个 M， 也 是 
可 以 的 。 接 着 ，D?C{0,3} 可 以 匹配 一 个 可 选 的 D， 以 及 0 到 3 个 可 能 的 C。 这 里 我 们 实际 只 
有 一 个 D 可 以 匹配 到 ， 正 则 表达 式 中 的 C 全 部 忽略 。 往 后 ，L?X{0,3} 只 能 匹配 到 一 个 可 选 
的 L， 没 有 X。 接 着 V?1H0,3} 匹 配 到 一 个 可 选 的 V， 没 有 字符 |。 最 后 $ 匹 配 字符 串 结束 。 
MDLV 表 示 1555。 

2. ^ 匹 配 字 符 串 开始 ， 然 后 匹配 到 2 个 M，D?C{0,3} 匹 配 到 可 选 的 D， 以 及 1 个 可 能 的 C。 往 
后 ，L?X{0,3} 匹 配 到 可 选 的 L 和 1 个 X。 接 着 V?1{0,3} 匹 配 可 选 的 V 以 及 1 个 可 选 的 | 字符 。 最 
后 匹配 字符 串 结束 。MMDCLXVI 表 示 2666。 

3.^ 匹 配 字 符 串 开始 ， 然 后 是 3 个 M，D?C{0,3} 匹 配 到 可 选 的 D， 以 及 3 个 C。 往 后 ，L?X{0,3} 
匹配 可 选 的 L- 和 3 个 X。 接 着 V?1{0,3} 匹 配 可 选 的 V 以 及 3 个 |。 最 后 匹配 字符 串 结束 。 
MMMDCCCLXXXVI 员 表示 3888。 这 是 你 不 用 扩展 语法 写 出 来 的 最 长 罗马 数字 。 

4. 靠近 一 点 ， (我 就 像 一 个 魔术 病 : “靠近 一 点 ， 孩 子 们 。 我 要 从 帽子 里 拿 出 一 只 兔子 。”) 
^ 匹 配 字符 串 开 始 ， 然 后 M 可 以 不 被 匹配 (因为 是 匹配 0 到 3 次 ) ， 接 着 匹配 D?C{0,3}， 这 
里 跳 过 了 可 选 的 D， 并 且 也 没有 匹配 到 C， 下 面 L?X{0,3} 也 一 样 ， 跳 过 了 L， 没 有 匹配 X。 
V?310,3} 也 跳 过 了 V， 匹 配 了 1 个 |。 然 后 匹配 字符 串 结尾 。 太 让 人 惊奇 了 ! 


如 果 你 一 次 性 就 理解 了 上 面 所 有 的 例子 ， 那 你 会 做 的 比 我 还 好 ! 现在 想象 一 下 以 前 的 做 法 ， 
在 一 个 大 程序 用 条 件 判 断 和 郴 数 来 处 理 现 在 正则 表达 式 处 理 的 内 容 ， 或 者 想象 一 下 前 面 写 的 
正则 表达 式 。 我 们 发 现 ， 那 些 做 法 一 点 也 不 漂亮 。 


现在 我 们 来 研究 一 下 怎么 让 你 的 正则 表达 式 更 具有 维护 性 ， 但 表达 的 意思 却 是 相同 的 。 


松散 正则 表达 式 


到 目前 为 止 ， 你 只 是 处 理 了 一 些小 型 的 正则 表达 式 。 就 像 你 所 看 到 的 ， 他 们 难以 阅读 ， 其 至 
你 不 能 保证 半年 后 ， 你 还 能 理解 这 些 东 西 ， 并 指出 他 们 是 干什么 的 。 所 以 你 需要 在 正则 表达 
式 内 部 添加 一 些 说 明 信 息 。 


python 人 允许 你 使 用 松散 正字 表达 式 来 达到 目的 。 松 散 正 字 表 达 式 和 普通 紧 凌 的 正则 表达 式 有 
两 点 不 同 : 


e 空白 符 被 忽略 。 空 格 、 制 表 符 和 回 车 在 正则 表达 式 中 并 不 会 匹配 空格 、 制 表 符 、 回 车 。 
如 果 你 想 在 正则 表达 式 中 匹配 他 们 ， 可 以 在 前 面 加 一 个 \ 来 转 义 。 

。 注释 信息 被 忽略 。 松 散 正 字 表 达 式 中 的 注释 和 python 代 码 中 的 一 样 ， 都 是 以 # 开 头 直到 行 
尾 。 它 可 以 在 多 行 正则 表达 式 中 增加 注释 信息 ， 这 就 避免 了 在 python 代 码 中 的 多 行 注 


释 。 他 们 的 工作 方式 是 一 样 的 。 


下 面 是 一 个 更 加 清楚 的 例子 。 我 们 再 来 看 看 把 上 面 的 紧 竣 正则 表达 式 改 写成 松散 正字 表达 式 
后 的 样子 。 


1. 


>>> pattern = ''' 
^ 


beginning of string 
thousands - 0 to 3 Ms 
hundreds - 900 (CM), 400 (CD), 0-300 (0 to 3 Cs), 
or 500-800 (D, followed by © to 3 Cs) 
tens - 90 (XC), 40 (XL), 0-30 (0 to 3 Xs), 
or 50-80 (L, followed by 0 to 3 Xs) 
ones - 9 (IX), 4 (IV), 0-3 (0 to 3 Is), 
or 5-8 (V, followed by 0 to 3 Is) 
end of string 


M(0,3 
(CM|CD|D?C(0, 3) ) 


(XC|XL |L?X(0, 3) ) 


(IX|IV|V?1(0, 3)) 


Yk dk dt dk dk dk dt db dt 


$ 


« sre.SRE Match object at 0x008EEB48> 
« sre.SRE Match object at 0x008EEB48> 


« sre.SRE Match object at 0x008EEB48> 


注意 ， 如 果 要 使 用 松散 正则 表达 式 ， 需 要 传递 一 个 叫 re.VERBOSE 的 参数 。 就 像 你 看 到 
的 那样 ， 正 则 表达 式 中 有 很 多 空白 符 ， 他 们 都 被 忽略 掉 了 。 还 有 一 些 注释 信息 ， 当 然 也 
被 正则 表达 式 忽 略 掉 。 当 空白 符 和 注释 信息 被 忽略 掉 后 ， 这 个 正则 表达 式 和 上 面 的 是 完 
全 一 样 的 ， 但 是 它 有 更 高 的 可 读 性 。 

匹配 字符 串 开 始 ， 然 后 是 1 个 M， 接 着 是 CM， 还 有 一 个 L 和 三 个 X， 后 面 是 IX， 最 后 匹配 
字符 串 结尾 。 

匹配 字符 串 开始 ， 然 后 是 3 个 M， 接 着 是 D 和 三 个 C， 以 及 三 个 X， 一 个 V， 三 个 |， 最 后 匹 
配 字符 串 结尾 。 

这 个 不 能 匹配 成 功 。 为 什么 呢 ? 因为 他 没有 re.VERBOSE 标 记 。 因 此 search() 会 把 他 们 整 
个 当成 一 个 紧凑 的 正则 表达 式 ， 包 括 里 面 的 空白 符 。python 不 会 自动 检测 一 个 正则 表达 
式 是 否 是 松散 正则 表达 式 ， 而 需要 明确 的 指定 。 凌 


案例 研究 : 解析 电话 号 码 


\d 匹配 所 有 0-9 的 数字 . ND. 匹配 除了 数字 外 的 所 有 字符 . 


到 目前 为 止 ， 我 们 主要 关注 于 整个 表达 式 是 否 能 匹配 到 ， 要 么 整个 匹配 ， 要 么 整个 都 不 匹 
配 。 


但 正则 表达 式 还 有 更 加 强大 的 功能 。 如 果 正 则 表达 式 成 功 匹 配 ， 你 可 以 找到 正则 表达 式 


中 某 一 部 分 匹配 到 什么 。 


这 个 


客户 想 用 自由 的 格式 来 输入 电话 号 码 〈 在 单个 输入 框 ) ， 这 需要 存储 区 域 码 ， 交 换 码 以 及 后 


例子 来 自 于 我 在 真实 世界 中 遇 到 的 另 一 个 问题 。 这 个 问题 是 : 解析 一 个 美国 电话 号 码 。 


四 码 (美国 的 电话 分 为 区 域 码 、 交 换 码 和 后 四 码 ) 。 我 在 网 上 搜索 ， 发 现 了 很 多 解决 这 个 问 


题 的 正则 表达 式 ， 但 是 它们 都 能 不 完全 满足 我 的 要 求 。 
下 面 是 我 要 接受 的 电话 号 码 格式 : 


800-555-1212 
800 555 1212 
800.555.1212 

(800) 555-1212 
1-800-555-1212 
800-555-1212-1234 
800-555-1212x1234 
800-555-1212 ext. 1234 


work 1-(800) 555.1212 #1234 


样式 够 多 的 ! 在 上 面 的 例子 中 ， 我 知道 区 域 码 是 800， 交 换 码 是 555， 以 及 最 后 的 后 四 码 是 
1212。 如 果 还 有 分 机 号 ， 那 就 是 1234。 


我 们 来 解决 这 个 电话 号 码 解析 问题 。 下 面 的 例子 是 第 一 步 。 


('800', '555', '1212') 


Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 


AttributeError: 'NoneType' object has no attribute 'groups' 


1. 


.我 们 通常 从 左 到 右 的 阅读 正则 表达 式 。 首 先是 匹配 字符 串 开始 位 置 ， 然 后 是 (\d{3})。\d{3} 


表示 什么 意思 ? \d 表 示 任 意 的 数字 (0 到 9) ，{3} 表 示 一 定 要 匹配 3 个 数字 。 这 个 是 你 前 面 
看 到 的 {n,m} 表 示 方 法 。 把 他 们 放 在 圆 括 号 中 ， 表 示 必 须 匹 配 3 个 数字 ， 并 且 把 他 们 记 做 一 
个 组 。 分 组 的 概念 我 们 后 面 会 说 到 。 然 后 匹配 一 个 连 字符 ， 接 着 匹配 另外 的 3 个 数字 ， 他 
们 也 同样 作为 一 个 组 。 然 后 又 是 一 个 连 字符 ， 后 面 还 要 准确 匹配 4 个 数字 ， 他 们 也 作为 一 
位 分 组 。 最 后 匹配 字符 串 结尾 。 

为 了 使 用 正则 表达 式 匹 配 到 的 这 些 分 组 ， 需 要 对 search() 函 数 的 返回 值 调用 groups() 方 
法 。 它 会 返回 一 个 这 个 正则 表达 式 中 定义 的 所 有 分 组 结果 组 成 的 元 组 。 在 这 里 ， 我 们 定 
义 了 三 个 分 组 ， 一 个 三 个 数字 ， 另 一 个 是 三 个 数字 ， 以 及 一 个 四 个 数字 

这 个 正则 表达 式 并 不 是 最 终 答案 。 因 为 它 还 没有 处 理 有 分 机 号 的 情况 。 为 了 处 理 这 种 情 
况 ， 必 须要 对 这 个 正则 表达 式 进行 扩展 。 

这 是 为 什么 你 不 能 在 产品 代码 中 链 式 调用 search() 和 groups() 的 原因 。 如 果 search() 方 法 
匹配 不 成 功 ， 也 就 是 返回 None， 这 就 不 是 返回 的 一 个 正则 表达 式 匹 配对 象 。 它 没 
groups() 方 法 ， 所 以 调用 None.groups() 将 会 抛 出 一 个 异常 。 (当然 ， 在 你 的 代码 中 ， 这 
个 异常 很 明显 。 在 这 里 我 说 了 我 的 一 些 经 验 。) 


('800', '555', '1212', '1234!) 


这 个 正则 表达 式 和 前 面 的 一 样 。 匹 配 了 字符 串 开 始 位 置 ， 然 后 是 一 个 三 个 数字 的 分 组 ， 


接着 一 个 连 字 符 ， 又 是 一 个 三 个 数字 的 分 组 ， 又 是 一 个 连 字符 ， 然 后 一 个 四 个 数字 的 分 
组 。 这 三 个 分 组 匹配 的 内 容 都 会 被 记忆 下 来 。 和 上 面 不 同 的 是 ， 这 里 多 匹配 了 一 个 连 字 
符 以 及 一 个 分 组 ， 这 个 分 组 里 的 内 容 是 匹配 一 个 或 更 多 个 数字 。 最 后 是 字符 串 结尾 。 

2. 现在 groups() 方 法 返回 有 四 个 元 素 的 元 组 。 因 为 正则 表达 式 现在 定义 了 四 个 组 。 

3. 不幸 的 是 ， 这 个 正则 表达 式 仍 然 不 是 最 终 答案 。 因 为 它 假设 这 些 数 字 是 有 连 字符 分 隔 
的 。 实 际 上 还 有 用 空格 ， 喜 号 和 点 分 隔 的 情况 。 这 就 需要 用 更 加 通用 的 解决 方案 来 匹配 
这 些 不 同 的 分 隔 符 。 

4. 噢 ， 这 个 正则 表达 式 不 但 不 能 做 到 你 想 要 的 ， 而 且 还 不 如 上 一 个 了 ! 因为 我 们 现在 不 能 
匹配 没有 分 机 号 的 电话 号 码 。 这 绝对 不 是 你 想 要 的 。 如 果 有 分 机 号 ， 你 希望 取 到 ， 但 如 
果 没有 ， 你 同样 也 希望 匹配 到 电话 号 码 其 他 的 部 分 。 


下 面 的 例子 展示 了 正则 表达 式 中 怎么 处 理 电话 号 码 中 各 个 部 分 之 间 使 用 了 不 同 分 隔 符 的 情 
况 。 


('800', '555', '1212', '1234') 


('800', '555', '1212', '1234!) 


1. 注意 了 ! 你 匹配 了 字符 串 开 始 ， 然 后 是 3 个 数字 的 分 组 ， 接 着 是 \D+， 这 是 什么 ? 好 吧 ， 
\D 匹 配 除 了 数字 以 外 的 任意 字符 ，+ 的 意思 是 一 个 或 多 个 。 因 此 \D+ 匹 配 一 个 或 一 个 以 上 
的 非 数字 字符 。 这 就 是 你 用 来 蔡 换 连 字符 的 东西， 它 用 来 匹配 不 同 的 分 隔 符 。 

2. 用 \D+ 蔡 换 -， 意 味 着 你 可 以 匹配 分 隔 符 为 空格 的 情况 。 

3 当然， 分隔 符 为 连 字符 一 样 可 以 正确 工作 。 

4. 不 幸 的 是 ， 这 仍然 不 是 最 终 答案 。 因 为 这 里 我 们 假设 有 分 隔 符 的 存在 ， 如 果 是 根本 就 没 
有 空格 或 者 是 连 字符 呢 ? 

5， 天 啊 ， 它 仍然 没有 解决 分 机 号 的 问题 。 现 在 你 有 两 个 问题 没有 解决 ， 但 是 我 们 可 以 用 相 
同 的 技术 来 解决 他 们 。 


下 面 的 例子 展示 用 正则 表达 式 义理 电话 号 码 没有 分 陋 符 的 情况 。 


('800', '555', '1212', '1234!) 
('800', '555', '1212', '1234!) 
('800', '555', '1212', '') 


22» 


1. 这 里 和 上 面 唯一 不 同 的 地 方 是 ， 把 所 有 的 + 换 成 了 。 号 码 之 间 的 分 隔 符 不 再 用 \D+ 来 匹 
配 ， 而 是 使 用 \D。 还 记得 + 表示 一 个 或 更 多 吧 ? 好 ， 现 在 可 以 解析 号 码 之 间 没 有 分 隔 符 的 
情况 了 。 


2. 你 看 ， 它 真 的 可 以 工作 。 为 什么 呢 ? 首先 匹配 字符 串 开 始 ， 然 后 是 3 个 数字 的 分 组 
(800) ， 分 组 匹配 的 内 容 会 被 记忆 下 来 。 然 后 是 0 个 非 数 字 分 隔 字 符 ， 然 后 又 是 3 个 数字 
的 分 组 (555) ， 同 样 也 会 被 记忆 下 来 。 后 面 是 0 个 非 数 字 字 符 ， 接 着 是 4 个 数字 的 分 组 
(1212) ， 然 后 又 是 0 个 非 数字 字符 ， 还 有 一 个 任意 个 数字 的 分 机 号 (1234) 。 最 后 匹 
配 字符 串 结尾 。 

3， 其 他 字符 作为 分 隔 符 一 样 可 以 工作 。 这 里 点 替代 了 之 前 的 连 字符 ， 分 机 号 的 前 面 还 可 以 
是 空格 和 x。 

4. 最 后 我 们 解决 了 这 个 长 久 以 来 的 问题 : 分 机 号 是 可 选 的 。 如 果 分 机 号 不 存在 ，groups() 仍 
然 可 以 返回 一 个 4 元 素 的 元 组 ， 只 是 第 四 个 元 素 为 空 字符 串 。 

5. 我 讨厌 坏 消息 。 这 还 没有 结束 。 还 有 什么 问题 呢 ?在 区 域 码 前 面 还 可 能 有 其 他 字符 。 但 
正则 表达 式 假设 区 域 码 在 字符 串 的 开头 。 没 关系 ， 你 还 可 以 使 用 0 个 或 更 多 的 非 数字 字符 
串 来 跳 过 区 位 码 前 面 的 字符 。 


下 面 的 例子 展示 怎么 处 理 电 话 号 码 前 面 还 有 其 他 字符 的 情况 。 


('800', '555', '1212', '1234!) 


('800', '555', '1212', '') 


1， 现 在 除了 在 第 一 个 分 组 之 前 要 用 \d* 匹 配 0 个 或 更 多 非 数 字 字 符 外 ， 这 和 前 面 的 例子 是 相同 
的 。 注 意 你 不 会 对 这 些 非 数 字 字符 分 组 ， 因 为 他 们 不 在 圆 括号 内 ， 也 就 是 说 不 是 一 个 
组 。 如 果 发 现 有 这 些 字符 ， 这 里 只 是 跳 过 他 们 ， 然 后 开始 对 后 面 的 区 域 码 匹配 、 分 组 。 

2， 即 使 区 位 码 之 前 有 圆 括号 ， 你 也 可 以 成 功 的 解析 电话 号 码 了 。 (右边 的 圆 括号 已 经 处 
理 ， 它 被 \D* 匹 配 成 一 个 非 数 字 字符 。) 

3. 这 只 是 一 个 全 面 的 检查 ， 来 确认 以 前 能 正确 工作 的 现在 仍然 可 以 正确 工作 。 因 为 首 字 符 
是 可 选 的 ， 因 此 首先 匹配 字符 串 开 始 ，0 个 非 数 字 字 符 ， 然 后 是 三 个 数字 并 分 组 ， 接 着 是 
一 个 非 数字 字符 ， 后 面 是 三 个 数字 并 且 分 组 ， 然 后 又 是 一 个 非 数字 分 隔 符 ， 又 是 一 个 4 个 
数字 且 分 组 ， 还 有 0 个 非 数字 字符 ， 以 及 0 个 数字 并 且 分 组 。 最 后 匹配 字符 串 结 尾 。 

4. 还 有 问题 。 为 什么 不 能 匹配 这 个 电话 号 码 ? 因 为 在 区 域 码 前 面 还 有 一 个 1， 但 你 假设 的 是 
区 位 码 前 面 的 第 一 个 字符 是 非 数字 字符 (\d*) 


我 们 回 过 头 看 看 。 到 目前 为 止 ， 所 有 的 正则 表达 式 都 匹配 了 字符 串 开 始 位 置 。 但 现在 在 字符 
串 的 开头 可 能 有 一 些 你 想 忽略 掉 的 不 确定 的 字符 。 为 了 匹配 到 想 要 的 数据 ， 你 需要 跳 过 他 
们 。 我 们 来 看 看 不 明确 匹配 字符 串 开始 的 方法 。 


('800', '555', '1212', '1234') 
('800', '555', '1212', '') 


('800', '555', '1212', '1234!) 


1. 注意 正则 表达 式 没有 ^。 不 会 再 匹配 字符 串 开 始 位 置 了 。 正 则 表达 式 不 会 匹配 整个 字符 


串 ， 而 是 试图 找到 一 个 字符 串 开 始 匹配 的 位 置 ， 然 后 从 这 个 位 置 开 始 匹 配 。 

2， 现 在 ， 你 可 以 正确 的 解析 出 字符 串 开 头 有 不 需要 的 字符 、 数 字 或 者 其 他 分 隔 符 的 情况 
ves 

3， 全 面 性 检查 ， 同 样 正常 工作 了 。 

4， 这 里 也 仍然 可 以 工作 。 


看 看 正则 表达 式 失控 有 多 快 ?快速 回顾 一 下 之 前 的 例子 。 你 能 说 出 他 们 的 区 别 吗 ? 


你 看 到 了 最 终 的 答案 〈 这 就 是 最 终 答 案 ! 如 果 你 发 现 还 有 它 不 能 正确 处 理 的 情况 ， 我 也 不 想 
知道 了 ) 。 在 你 芯 掉 它 之 前 ， 我 们 来 把 它 改 宇 成 松散 正则 表达 式 吧 。 


>>> phonePattern = re.compile(r''' 


# don't match beginning of string, number can start anywhere 
(\d{3}) # area code is 3 digits (e.g. '800') 
ND* 4 optional separator is any number of non-digits 
(Nd(3)) # trunk is 3 digits (e.g. '555') 
ND* 4 optional separator 
(\d{4}) # rest of number is 4 digits (e.g. '1212') 
D* # optional separator 
(\d*) # extension is optional and can be any number of digits 
# end of string 


'', re.VERBOSE) 
('800', '555', '1212', '1234!) 


('800', '555', '1212', '') 


1. 除了 这 里 是 用 多 行 表 示 的 以 外 ， 它 和 上 面 最 后 的 那个 是 完全 一 样 的 。 它 一 样 可 以 处 理 之 
前 的 相同 的 情况 。 
2， 最 后 我 们 的 全 面 检查 也 通过 。 很 好 ， 你 终于 完成 了 。 


小 结 


这 只 是 正则 表达 式 能 完成 的 工作 中 的 冰山 一 角 。 换 句 话 说， 尽管 你 可 能 很 受 打 击 ， 相 信 我 ， 
你 已 经 不 是 什么 都 不 知道 了 。 


现在 ， 你 应 该 已 经 熟悉 了 下 面 的 技巧 : 


e ^ 匹配 字符 串 开始 位 置 。 

。 $ 匹配 字符 串 结束 位 置 。 

e b. 匹配 一 个 单词 边界 。 

e d 匹配 一 个 数字 。 

e D. 匹配 一 个 任意 的 非 数 字 字 符 。 

。 x? 匹配 可 选 的 x 字符 。 换 句 话说 ， 就 是 0 个 或 者 1 个 x 字符 。 
e. o 匹配 0 个 或 更 多 的 x。 

e x 匹配 1 个 或 者 更 多 x。 

e x(n,m) 匹配 n 到 m 个 x， 至 少 n 个 ， 不 能 超过 m 个 。 


e (alblc) 匹配 单独 的 任意 一 个 a 或 者 b 或 者 c。 


e (x) 这 是 一 个 组 ， 它 会 记忆 它 匹 配 到 的 字符 串 。 你 可 以 用 re.search 返 回 的 匹配 对 象 的 
groups() 范 数 来 获取 到 匹配 的 值 。 


正则 表达 式 非常 强大 ， 但 它 也 并 不 是 解决 每 一 个 问题 的 正确 答案 。 你 需要 更 多 的 了 解 来 判断 
哪些 情况 适合 使 用 正则 表达 式 。 某 些 时 候 它 可 以 解决 你 的 问题 ， 某 些 时 候 它 可 能 带 来 更 多 的 
问题 。 


Chapter 6 闭合 与 生成 器 


"My spelling is Wobbly. Its good spelling but it Wobbles, and the letters get in the 
wrong places. " — Winnie-the-Pooh 


VR AN 


出 于 传递 所 有 理解 的 原因 ， 我 一 直 对 语言 非常 着 迷 。 我 指 的 不 是 编程 语言 。 好 吧 ， 是 编程 语 
言 ， 但 同时 也 是 自然 语言 。 使 用 英语 。 英 语 是 一 种 七 拼 八 凑 的 语言 ， 它 从 德语 、 法 语 、 西 班 
牙 语 和 拉丁 语 (等 等 ) 语言 中 借用 了 大 量词 汇 。 事 实 上 , “借用 ”是 不 恰当 的 词汇 ，“ 掠 夺 ” 更 加 
夺 合 。 或 者 也 许 叫 "同化 一 一 就 像 博 格 人 GEX : 根据 维基 百科 资料 ，Borg 是 《星际 旅行 》 
虚构 宇宙 中 的 一 个 种 族 ， 该 译 法 未 经 原作 者 映 证 ) 。 是 的 ， 我 喜欢 这 样 。 


我 们 就 是 博 格 人 。 你 们 的 语言 和 词 源 特性 将 会 被 添加 到 我 们 自己 的 当中 。 抵 抗 是 徒劳 的 。 


在 本 章 中 ， 将 开始 学 习 复数 名 词 。 以 及 返回 其 它 函 数 的 本 数 、 高 级 正则 表达 式 和 生成 器 。 但 
首先 ， 让 我 们 聊 聊 如 何 生成 复数 名 词 。 〈 如 果 还 没有 阅读 《正则 表达 式 》 一 章 ， 现 在 也 许 是 
个 好 时 机 读 一 读 。 本 章 将 假定 您 理解 了 正则 表达 式 的 基础 ， 并 迅速 进入 更 高 级 的 用 法 。) 


如 果 在 讲 英 语 的 国家 长 大 ， 或 在 正规 的 学 校 学 习 过 英语 ， 您 可 能 对 下 面 的 基本 规则 很 熟悉 : 


e 如 果 某 个 单词 以 S、X 或 Z 结尾， 添加 ES 。Bass 变 成 basses, fax 变 成 faxes, m 
waltz 变 成 waltzes。 

。 如 果 某 个 单词 以 发 音 的 H 结尾 ， 加 ES ; 如 果 以 不 发 音 的 H 结尾 ， 只 需 加 上 S 。 什 么 是 
发 音 的 H ? 指 的 是 它 和 其 它 字母 组 合 在 一 起 发 出 能 够 听 到 的 声音 。 因 此 coach 变 成 
coaches 而 rash t FEX /ashes， 因 为 在 说 这 两 个 单词 的 时 候 ， 能 够 听 到 CH 和 SH 的 发 
音 。 但 是 cheetah 变 成 cheetahs, AA H 不 发 音 。 

e 如 果 某 个 单词 以 发 上 音 的 字母 Y HE, REY AR IES; 如 果 Y 与 某 个 原因 字母 组 合 发 其 
它 音 的 话 ， 只 需 加 上 S 。 因 此 vacancy € Fx vacancies, (B day 变 成 days 。 

。 如 果 所 有 这 些 规则 都 不 适用 ， 只 需 加 上 S 并 作 最 好 的 打算 。 


(我 知道 ， 还 有 许多 例外 情况 。/Man € Fk men 而 woman X Fx women， 但 是 human 3E FX 
humans, Mouse X Fk mice ; louse X FX lice, 但 house 变 成 houses, Knife % PX knives 

; Wife 3t FX, wives， 但 是 lowlife 变 成 JowNfes。 而 且 甚 至 我 还 没有 开始 提 到 那些 原型 和 复数 形 
式 相同 的 单词 ， 就 像 sheep, deer haiku, ) 


其 它 语 言 ， 当 然 是 完全 不 同 的 。 


让 我 们 设计 一 个 Python 类 库 用 来 自动 进行 英语 名 词 的 复数 形式 转换 。 我 们 将 以 这 四 条 规则 为 
起 点 ， 但 要 记 住 的 不 可 避免 地 还 要 增加 更 多 规则 。 


我 知道 ， 让 我 们 用 正则 表达 式 | 


因此 ， 您 正在 看 着 单词 ， 至 少 是 
须 找到 不 同 的 字符 组 合 ， 然 后 进行 不 同 的 处 理 。 这 听 起 来 是 正则 表达 式 的 工作 ! 


[下 载 plural1.py ] 


import re 
def plural(noun): 


elif re.search('[^aeioudgkprt]h$', noun): 
return re.sub('$', 'es', noun) 

elif re.search('[^aeiou]y$', noun): 
return re.sub('y$', 'ies', noun) 

else: 
return noun + 's' 


英语 单词 ， 也 就 是 说 您 正在 看 着 字符 的 字符 串 。 规 则 说 你 必 


1. 这 是 一 表达 式 ， 但 它 使 用 了 在 《正则 表达 式 》 一 章 中 没有 讲 过 的 语法 。 中 括号 表 
示 “ 匹 配 字符 的 其 中 之 一 ”"。 因 此 [sz] 的 意思 是 :“s、 x% z”, GEREM 
[p m ee 经 过 组 合 ， 该 正则 表达 式 将 测试 


noun EGMA s, x 或 zz 
2. 该 re.sub() 图 数 执 行 基 于 正则 表达 式 的 字符 串 蔡 换 。 


让 我 们 看 看 正则 表达 式 蔡 换 的 细节 。 


>>> Import re 

« sre.SRE Match object at 0x001C1FA8» 
'Mork' 

'rook' 


'oops' 


字符 串 Mark O a, b Ek c 3? ÆN, ， 它 包含 a 。 

好 了 ， 现 在 查找 a. b 或 c ， 并 将 其 替换 为 o. Mark 变 成 了 Work, 
[E] —ES AUR rock 转换 为 rook o 

BTRERNA ARAR caps 转换 为 oaps ， 但 实 F 


AOUN 


上 并 是 这 样 。 re.sub 蔡 换 所 有 


际 
的 匹配 项 ， 而 不 仅仅 是 第 一 个 匹配 项 。 因 此 该 正则 表达 式 将 caps 转换 为 oops, AA 


无 论 是 c 还 是 a 均 被 转换 为 o 。 
接 下 来 ， 回 到 plural() PRESI n 


def plural(noun): 
if re.search('[sxz]$', noun): 


return re.sub('$', 'es', noun) 


return re.sub('y$', 'ies', noun) 
else: 
return noun + 's' 


1， 此 处 将 字符 串 的 结尾 (通过 s 匹配 ) 替换 为 字符 串 es 。 换 句 话 来 说 ， 向 字符 串 尾部 
添加 一 个 es 。 可 以 通过 字符 串 链接 来 完成 同样 的 变化 ， 例 如 noun + 'es' ， 但 我 对 每 
条 规则 都 选用 正则 表达 式 ， 其 原因 将 在 本 章 稍 后 更 加 清晰 。 

2. 仔细 看 看 ， 这 里 出 现 了 新 的 变化 。 作 为 方 括号 中 的 第 一 个 字符 ， ^ 有 特别 的 含义 : 

非 。 [^abc] 的 意思 是 :“ 除 了 a. b E c 之 外 的 任何 字符 ”” 因 此 [^aeioudgkprt] 
的 意思 是 除了 a、 e. 2i 0、 Us di, gs ks p 、 r 或 t 之 外 的 任 
何 字 符 。 然 后 该 字符 必须 紧 随 一 个 hn ， 其 后 是 字符 串 的 结尾 。 所 匹配 的 是 以 H 结尾 且 H 
发 音 的 单词 。 

3. 此 处 有 同样 的 模式 : 匹配 以 Y 结尾 的 单词 ， 而 Y 之 前 的 字符 不 是 a、 e. i. o 
或 u 。 所 匹配 的 是 以 Y 结尾 ， 且 Y 发 音 听 起 来 像 | 的 单词 。 


让 我 们 看 看 “否定 "正则 表达 式 的 更 多 细节 。 


>>> Import re 

« sre.SRE Match object at 0x001C1FA8» 
>>> 

>>> re.search('[^aeiou]y$', 'day') 


>>> 


>>> 


1. vacancy 匹配 该 正则 表达 式 ， 因 为 它 以 cy 结尾 , H c 并 非 a、 e. i. o EX 
U o 

2. boy 不 匹配 ， 因 为 它 以 oy 结尾 ， 可 以 明确 地 说 y 之 前 的 字符 不 能 是 o o day 不 
匹配 ， 因 为 它 以 ay 结尾 。 

3. pita 不 匹配 ， 因 为 它 不 以 y ZR. 


'vacancies' 
>>> re.sub('y$', 'ies', 'agency!) 
'agencies' 


'vacancies' 


1. 该 正则 表达 式 将 vacancy 转换 为 vacancies ， 将 agency 转换 为 agencies ， 这 正 是 
想 要 的 结果 。 注 意 ， 它 也 会 将 boy 转换 为 boies ， 但 这 永远 也 不 会 在 函数 中 发 生 ， 
为 我 们 首先 进行 了 re.search 以 找 出 永远 不 应 进行 该 re.sub 操作 的 单词 。 

2. 顺便 ， 我 还 想 指出 可 以 将 该 两 条 正则 表达 式 合并 起 来 (一 条 查找 是 否 应 用 该 规则 ， 另 一 


条 实际 应 用 规则 ) ， 使 其 成 为 一 条 正则 表达 式 。 它 看 起 来 是 下 面 这 个 样子 : 其 中 多 数 内 
容 看 起 来 应 该 很 熟悉 : 使 用 了 在 案例 研究 : 分 析 电 话 号 码 中 用 到 的 记忆 分 组 。 该 分 组 用 
于 保存 字母 y 之 前 的 字符 。 然 后 在 著 换 字符 串 中 ， 用 到 了 新 的 语法 : \1 ， 它 表 
示 "“ 咖 ， 记 住 的 第 一 个 分 组 呢 ? 把 它 放 到 这 里 。 "在 此 例 中 ， 记 住 了 y 之 前 的 c ， 在 进 
行 蔡 换 时 ， 将 用 c BR c, PH ies BR VE o (如 果 有 超过 一 个 的 记忆 分 组 ， 可 以 
使 用 \2 和 \s 等 等 。) 


正则 表达 式 蔡 换 功能 非常 强大 ， 而 \1 语法 则 使 之 愈加 强大 。 但 是 ， 将 整个 操作 组 合成 一 
正则 表达 式 也 更 难 阅读 ， 而 且 也 没有 直接 映射 到 刚才 所 描述 的 复数 规则 。 刚才 所 用 可 的 二 


则 ， 像 “如 果 单 词 以 S、X 或 Z 结尾 ， 则 添加 ES 。 ”如 果 坦 看 该 本 数 ， 有 两 行 代码 都 在 表 
述 “ 如 果 以 S、X 或 Z 结尾 ， 那 么 添加 ES 。” 它 没有 之 前 那 种 模式 更 直接 。 


函数 列表 


现在 要 增加 一 些 抽象 层次 的 内 容 。 我 们 开始 时 定义 了 一 系列 规则 : 如 果 这 样 ， 那 样 做 ; 否则 
前 往 下 一 条 规则 。 现 在 让 我 们 对 部 分 程序 进行 临时 的 复杂 化 ， 以 简化 另 一 部 分 。 


import re 


def match sxz(noun): 
return re.search('[sxz]$', noun) 


def apply sxz(noun): 
return re.sub('$', 'es', noun) 


def match h(noun): 
return re.search('[^aeioudgkprt]h$', noun) 


def apply h(noun): 
return re.sub('$', 'es', noun) 


return re.search('[^aeiou]y$', noun) 
return re.sub('y$', 'ies', noun) 


def match default(noun): 
return True 


def apply default(noun): 
return noun + 's' 


(match h, apply h), 


(match y, apply y), 
(match default, apply default) 


) 


plural(noun): 


o 
[15] 
ara 


if matches_rule(noun): 
return apply rule(noun) 


1， 现 在， 每 条 匹配 规则 都 有 自己 的 函数 ， 它 们 返回 对 re.search() ERA 73H45 
2. 每 条 应 用 规则 也 都 有 自己 的 范 数 ， 它 们 调用 re.sub() a M 


则 。 


3. 现在 有 了 一 个 rues 数据 结构 一 个 函数 对 的 序列 ， 而 不 是 一 个 画 数 〈 plural() ) 
实现 多 个 条 规则 。 

4. 由 于 所 有 的 规则 被 分 割 成 单独 的 数据 结构 ， 新 的 plural) 图 数 可 以 减少 到 几 行 代码 。 
使 用 for 循环 ， 可 以 一 次 性 从 rules 这 个 数据 结构 中 取出 匹配 规则 和 应 用 规则 这 两 样 
东西 〈 一 条 匹配 对 应 一 条 应 用 ) 。 在 for 循环 的 第 一 次 迭代 过 程 中 ， matches_rule 将 
获取 match sxz ， 而 apply rule 将 获取 apply sxz 。 在 第 二 次 迭代 中 (假定 可 以 进行 
到 这 一 步 ) , matches rule 将 会 赋值 为 match h ， 而 apply rule 将 会 赋值 为 
apply h o 该 图 数 确 保 最 终 能 够 返回 某 个 值 ， 因为 终极 匹配 规则 ( match_default ) RR 
E] True ， 意 思 是 对 应 的 应 用 规则 ( apply default ) 将 总 是 被 应 用 。 





3r Æ "rules" 是 一 系列 函数 对 。 


该 技术 能 够 成 功 运作 的 原因 是 Python 中 一 切 都 是 对 象 ， 包 括 了 男 数 。 数 据 结 构 rules 包含 
了 阔 数 一 一 不 是 责 数 的 名 称 ， 而 是 实际 的 沙 数 对 象 。 在 for 循环 中 被 赋值 

后 ， matches_rule 和 apply rule 是 可 实际 调用 的 函数 。 在 第 一 次 for 循环 的 迭代 过 程 
中 ， 这 相当 于 调用 matches sxz(noun) ， 如 果 返 回 一 个 匹配 值 ， 将 调用 apply sxz(noun) 。 





如 果 这 种 附加 抽象 层 今 你 迷惑 ， 可 以 试 着 展开 函数 以 了 解 其 等 价 形式 。 整 个 for 循环 等 价 于 
下 列 代码 : 


def plural(noun): 
if match_sxz(noun): 
return apply_sxz(noun) 
if match_h(noun): 
return apply_h(noun) 
match_y(noun): 
return apply_y(noun) 
match default(noun): 
return apply default(noun) 


zh 


i 


—h 


i 


这 段 代码 的 好 处 是 plural() KARAT. CAE- RPLELETB7S E GL AU, HAORA 
的 方式 对 它们 进行 迭代 。 

1. 获取 某 匹配 规则 

2， 是 否 匹 配 ? 然后 调用 应 用 规则 ， 并 返回 结果 。 

3. 不 匹配 ? 返回 步骤 1 。 


这 些 规则 可 在 任何 地 方 以 任何 方式 定 X. plural() ERATIS De 


ME, BHARA EDEB? 8, xA. BP R TEAR — Lm] sr 1X 
如 何 操作 。 在 第 一 例 中 ， 将 需要 新 增 一 条 if 语句 到 plural() KA. ERBAA, Tiu 
要 新 增 两 个 加 数 ， match_foo() 和 apply foo() ， 然 后 更 新 rules 序列 以 指定 新 的 匹配 和 
应 用 画 数 按照 其 它 规则 按 顺 序 调 用 。 


但 是 对 于 下 一 节 来 说， 这 只 是 一 个 跳板 而 已 。 让 我 们 继续 .……. 


匹配 模式 列表 


其 实 并 不 是 真 的 有 必要 为 每 个 匹配 和 应 用 规则 定义 各 自 的 命名 函数 。 它 们 从 未 直接 被 调用 ， 
而 只 是 被 添加 到 rules 序列 并 从 该 外 被 调用 。 此 外 ， 每 个 函数 遵循 两 种 模式 的 其 中 之 一 。 所 
有 的 匹配 函数 调用 re.search() ， 而 所 有 的 应 用 画 数 调用 re.sub() 。 让 我 们 将 模式 排除 在 考 
虑 因素 之 外 ， 使 新 规则 定义 更 加 简单 。 


import re 


def build match and apply functions(pattern, search, replace): 





return re.search(pattern, word) 


return re.sub(search, replace, word) 


1. build match and apply functions() ES FH T 2b SUPRC. 它 接受 pattern 、 
search 和 replace 三 个 参数 ， 并 定义 了 matches rule() 酌 数 ， 该 函数 通过 传 给 
build match and apply functions() 图 数 的 pattern 及 传递 给 所 创建 的 
matchs rules() 函数 的 word 调用 re.search() KIZ, [EE 

2. & FIESTA OL EE TLÁESKPH T IERI. m FHERÉRUASESE— TSA, THERE A 
build match and apply functions() LXZXÉS search 和 replace 参数 、 以 及 传递 给 要 创 
建 apply_rule() EXZXES word 调用 re.sub() 。 在 动态 画 数 中 使 用 外 部 参数 值 的 技术 称 
为 WA 【closures】 。 基 本 上 ， 常 量 的 创建 工作 都 在 创建 应 用 事 数 过 程 中 完成 : 它 接 受 
一 个 参数 (word), bay 加 上 了 另外 两 个 值 ( search 和 replace ) ， 该 两 
个 值 都 在 定义 应 用 画 数 时 进行 设 

3. 最 后 ， build_match_and apply functions() 函数 返回 一 个 包含 两 个 值 的 元 组 即 刚 才 所 
创建 的 两 个 函数 。 在 这 些 函 数 中 定义 的 常量 ( match SRN KAREI pattern PX 
数 ， apply rule() 函数 中 的 search 和 replace ) 与 这 函数 呆 在 一 起 ， 即便 是 在 从 
build match and apply functions() 中 返回 后 也 一 样 。 这 真是 非常 酷 的 一 件 事 情 。 

















但 如 果 此 方式 导致 了 难以 置信 的 混乱 (应 该 是 这 样 ， 它 确实 有 点 奇怪 ) ， 在 看 看 如 何 使 用 之 


后 可 能 会 清晰 一 些 。 


( 
('[sxz]$', ep aest) 
('[^aeioudgkprt]h$', '$', 'es'), 
('(qu|[^aeiou])y$',  'y$', 'ies'), 


for (pattern, search, replace) in patterns] 


. 我们 的 复数 形式 “规则 "现在 被 定义 为 字符 串 的 元 组 的 元 组 〈 而 不 是 函数 ) 。 每 个 组 的 第 
一 个 字符 串 是 在 re.search() 中 用 于 判断 该 规则 是 否 匹 配 的 正则 表达 式 。 各 组 中 的 第 二 
和 第 三 个 字符 串 是 在 re.sub() 中 将 实际 用 于 使 用 规则 将 名 词 转换 为 复数 形式 的 搜索 和 
蔡 换 表达 式 。 

2， 此 处 的 后 各 规则 上 略 有 变化 。 在 前 例 中 ， match_default() EXZ&5oRIB] True ， 意 思 是 如 果 
更 多 的 指定 规则 无 一 匹配 ， 代 码 将 简单 地 向 给 定 词汇 的 尾部 添加 一 个 s 。 本 例 则 进行 了 


一 些 功能 等 同 的 操作 。 最 后 的 正则 表达 式 询 问 单词 是 否 有 一 个 结尾 〈 $ 匹配 字符 串 的 结 
EE) 。 当 然 ， 每 个 字符 串 都 有 一 个 结尾 ， 甚 至 是 空 字 符 串 也 有 ， 因 此 该 规则 将 始终 被 匹 
配 。 因 此 ， 它 实现 了 _ match_default() WAEA, MERE] True : 它 确 保 了 如 
果 没 有 更 多 的 指定 规则 用 于 匹配 ， 代 码 将 向 给 定单 词 的 尾部 增加 一 个 s 。 

3. 本 行 代码 非常 神奇 。 它 以 _patterns 中 的 字符 串 序 列 为 参数 ， 并 将 其 转换 为 一 个 汞 数 序 
列 。 怎么 做 到 的 ?通过 将 字符 串 “ 了 映射 "到 build match and apply functions() [SEM 也 
就 是 说 ， 它 接受 每 组 三 重 字符 串 为 参数 ， 并 将 该 三 个 字符 串 作 为 实 参 调用 
build match and apply functions() HR build match and apply functions() EROR 
回 一 个 包含 两 个 函数 的 元 组 。 也 就 是 说 该 规则 最 后 的 结尾 与 前 例 在 功能 上 是 等 价 的 : 
一 个 元 组 列表 ， 每 个 元 组 都 是 一 对 函数 。 第 一 个 函数 是 调用 re.search() 的 匹配 男 数 ; 
而 第 二 个 函数 调用 re.sub() 的 应 用 函数 。 











此 版 本 脚本 的 最 前 面 是 主 入 口 点 一 一 plural() 图 数 。 


def plural(noun): 


if matches rule(noun): 
return apply rule(noun) 


1. 由 于 ww 列表 与 前 例 中 的 一 样 〈 实 际 上 确实 相同 ) ， 因 此 毫 不 奇怪 plural() ES 
本 没有 发 生变 化 。 它 是 完全 通用 的 ， 它 以 规则 图 数列 表 为 参数 ， 并 按照 顺序 调用 它们 。 
它 并 不 关系 规则 是 如 何 定义 的 。 在 前 例 中 ， 它 们 被 定义 为 各 自命 名 的 函数 。 现 在 它们 通 
过 将 build match and apply functions() 本 数 的 输出 映射 为 源 字符 串 的 列表 来 动态 创 
建 。 这 没有 任何 关系 ; plural) 函数 将 以 同样 方式 运作 。 


匹配 模式 文件 


目前 ， 已 经 排除 了 重复 代码 ， 增 加 了 足够 的 抽象 性 ， 因 此 复数 形式 规则 可 以 字符 串 列 表 的 形 
式 进 行 定义 。 下 一 个 巡 辑 步骤 是 将 这 些 字符 串 放 和 一 个 单独 的 文件 中 ， 因 此 可 独立 于 使 用 它 
们 的 代码 来 进行 维护 。 


首先 ， 让 我 们 创建 一 份 包含 所 需 规则 的 文本 文件 。 没 有 花 只 的 数据 结构 ， 只 有 空白 符 分 隔 的 
三 列 字符 串 。 将 其 命名 为 plural4-rules.txt . 





[sxz]$ $ es 

[^aeioudgkprt]h$ $ es 

[^aeiou]y$ y$ ies 
$ S 


下 面 看 看 如 何 使 用 该 规则 文件 。 


Import re 
def matches rule(word): 
return re.search(pattern, word) 
def apply rule(word): 
return re.sub(search, replace, word) 
return (matches rule, apply rule) 
rules - [] 


pattern, search, replace)) 


1. build match and apply. functions() 画 数 没有 发 生变 化 。 仍然 使 用 了 闭合 技术 通过 外 
部 函数 中 定义 的 变量 来 动态 创建 两 个 图 数 。 

2. 全 局 的 open() 琅 数 打开 文件 并 返回 一 个 文件 对 象 。 此 例 中 ， 将 要 打开 的 文件 包含 了 名 
词 复数 形式 的 模式 字符 串 。 with 语句 创建 了 叫做 context 【上 下 文 】 的 东西 : 当 with 
块 结束 时 ，Python 将 自动 关闭 文件 ， 即 便 是 在 with 块 中 引发 了 例外 也 会 这 样 。 在 OX 
(E) 一 章 中 将 学 到 关于 with 块 和 文件 对 象 的 更 多 内 容 。 

3. for line in &lt;fileobject&gt; 代码 从 打开 的 文件 中 读 取 数 据 ， 并 将 文本 赋值 给 line 
变量 。 在 《文件 》 一 章 中 将 学 到 更 多 关于 读 取 文 件 的 内 容 。 

4. 文件 中 每 行 都 有 三 个 值 ， 单 它们 通过 空白 分 隔 〈 制 表 符 或 空白 ， 没 有 区 别 ) 。 要 将 它们 
分 开 ， 可 使 用 字符 串 方 法 split() 。 split() 方法 的 第 一 个 参数 是 None ， 表 示 “ 对 任 
何 空白 字符 进行 分 隔 ( 制 表 符 或 空白 ,没有 区 别 ) "。 第 二 个 参数 是 3 ， 意 思 是 “针对 空 
白 分 隔 三 次 ， 丢 弃 该 行 剩 下 的 部 分 。"” 像 [sxz]$ $ es 这 样 的 行将 被 分 割 为 列表 
['[sxz]$'，'$'，'es'] ， 意 思 是 pattern 获得 值 '[sxz]$' , search 获得 值 '$', 
而 replace 获得 值 'es' o 对 于 短 短 的 一 行 代码 来 说 确实 威力 够 大 的 。 

5. 最 后 ， 将 pattern 、 search 和 replace 传人 build match and apply functions() ER 
数 ， 它 将 返回 一 个 函数 的 元 组 。 将 该 元 组 添加 到 rules 列表， 最终 rues 将 储存 
plural() ER ZA FIT m RARS PE BORD e FB ER AUS 








此 处 的 改进 是 将 复数 形式 规则 独立 地 放 到 了 一 份 外 部 文件 中 ， 因 此 可 独立 于 使 用 它 的 代码 单 
独 对 规则 进行 维护。 代码 是 代码 ， 数 据 是 数据 ， 生 活 更 美好 。 


生成 器 
如 果 有 个 通用 pluralo 函数 解析 规则 文件 不 就 更 棒 了 吗 ? 获取 规则 ， 检 查 匹 配 ， 应 用 相应 


的 转换 ， 进 入 下 一 条 规则 。 这 是 plural() 图 数 所 必须 完成 的 事 ， 也 是 plural) 西数 必须 
做 的 事 。 


def rules(rules filename): 
with open(rules filename, encoding-'utf-8') as pattern file: 
for line in pattern file: 
pattern, search, replace - line.split(None, 3) 
yield build match and apply functions(pattern, search, replace) 





def plural(noun, rules filename-'plural5-rules.txt'): 
for matches rule, apply rule in rules(rules filename): 
if matches rule(noun): 
return apply rule(noun) 
raise ValueError('no matching rule for (0j'.format(noun)) 


这 段 代 码 到 底 是 如 何 运作 的 ? 让 我 们 先 看 一 个 交互 式 例子 。 


>>> def make counter(x): 
print('entering make counter') 
while True: 


print('incrementing x') 
X-7X*1 


«generator object at 0x001C9C10» 


entering make counter 
2 


incrementing x 
3 


incrementing x 
4 


make counter 中 出 现 的 yield 命令 的 意思 是 这 不 是 一 个 普通 的 函数 。 是 一 次 生成 一 
个 值 的 特殊 类 型 画 数 。 可 以 将 其 视 为 可 恢复 画 数 。 dus MR 
续 x 值 的 生成 器 【Generator】 。 

2. 为 创建 make counter 生成 器 的 实例 ， 仅 需 像 调用 其 它 画 数 那样 对 它 进 行 调用 。 注 意 该 调 
用 并 不 实际 执行 画 数 代码 。 可 以 这 人 么 说 ， 是 因为 make counter() 画 数 的 第 一 行 调 用 了 
print() ， 但 实际 并 未 打印 任何 内 容 。 

3. 该 make counter() 画 数 返回 了 一 个 生成 器 对 象 。 

next() 辑 数 以 一 个 生成 器 对 象 为 人 参数， 并 返回 其 下 一 个 值 。 对 counter 生成 器 第 一 次 

调用 next() ， 它 针对 第 一 条 yield 语句 执行 make counter() 中 的 代码 ， 然 后 返回 所 

ie: 在 此 情况 下 ， 该 代码 输出 将 为 2 ， 因 其 仅 通过 调用 make counter(2) 对 生成 
并行 初始 创建 。 

5. o MM next() 将 确切 地 从 上 次 调用 的 位 置 开始 继续 ， 直 到 下 一 
yield 语句 。 所 有 的 变量 、 局 部 数据 等 内 容 在 yield 时 被 保存 ， 在 next() 时 被 恢 
£t. 下 一 行 代 码 等 待 被 执行 以 调用 print() 以 打印 出 incrementing x o 之 后 ， 执行 语 
^] x = x + 1。 然 后 它 继续 通过 while 再 次 循环 ， 而 它 再 次 遇 上 的 第 一 条 语句 是 
yield x ， 该 语句 将 保存 所 有 一 切 状 态 ， 并 返回 当前 x 的 值 (当前 为 3). 

6， 第 二 次 调用 next(counter) Hj, X ERGTRANI, 但 这 次 x 为 4。 


由 于 make counter. 设置 了 一 个 无 限 循环 ， 理 论 上 可 以 永远 执行 该 过 程 ， 它 将 不 断 递增 x 并 
输出 数值 。 还 是 让 我 们 看 一 个 更 加 实用 的 生成 器 用 法 。 


肆 波 那 奇 生成 器 
"yield" 暂停 一 个 函数 。“next()"” 从 其 暂停 处 恢 复 其 运行 。 


def fib(max): 


while a « max: 


1， 斐 波 那 契 序列 是 一 系列 的 数字 ， 每 个 数字 都 是 其 前 两 个 数字 之 和 。 它 从 0 和 1 开始 ， 
初始 时 上 升 缓慢 ， 但 越 来 越 快 。 启动 该 序列 需要 两 个 变量 : 从 0 开始 的 a ， 和 从 i F 
始 的 b o 

2. a 是 当前 序列 中 的 数字 ， 因 此 对 它 进行 yield 操作 。 

3. b 是 序列 中 下 一 个 数字 ， 因 此 将 它 赋 值 给 a ， 但 同时 计算 下 一 个 值 (a b) 并 将 其 赋 
值 给 b 以 供 稍 后 使 用 。 注 意 该 步骤 是 并 行 发 生 的 SUR a 为 s Hob X 5, RA 
a, b-b,a*b 将 会 把 a 设置 5 (b 之 前 的 值 ) ,将 bo 设置 为 8 (a fI b 
之 前 值 的 和 ) 。 


因此 ， 现 在 有 了 一 个 连续 输出 辈 波 那 契 数值 的 函数 。 当 然 ， 还 可 以 使 用 递归 来 完成 该 功能 ， 
但 这 个 方式 更 易于 阅读 。 同 样 ， 它 也 与 for 循环 合作 良好 。 


>>> from fibonacci import fib 
01123598 13 21 34 55 89 144 233 377 610 987 


[6，1，1，2，3，5，8，13，21，34，55，89，144，233，377，610，987] 


1. 可 以 在 for 循环 中 直接 使 用 像 fip() 这 样 的 生成 器 。 for 循环 将 会 自动 调用 next() 
K, M fib() 生成 器 获取 数值 并 赋值 给 for 循环 索引 变量 。 (n) 

2. 每 经 过 一 次 for 循环 ，n 从 fib 的 yield 语句 获取 一 个 新 值 ， 所 需 做 的 仅仅 是 
输出 它 。 一 旦 fib() 的 数字 用 尽 (a 大 于 max , 即 本 例 中 的 1000 ) , for 循环 将 
会 自动 退出 。 

3. 这 是 一 个 很 有 用 的 用 法 : 将 一 个 生成 器 传递 给 list() 画 数 ， 它 将 通 历 整个 生成 器 (就 
像 前 例 中 的 ror 循环 ) 并 返回 所 有 数值 的 列表 。 


复数 规则 生成 器 


让 我 们 回 到 piurals.py 看 看 该 版 本 的 plural) 函数 是 如 何 运 作 的 。 


def rules(rules filename): 
with open(rules filename, encoding-'utf-8') as pattern file: 
for line in pattern file: 
def plural(noun, rules filename-'plural5-rules.txt'): 
if matches rule(noun): 


return apply rule(noun) 
raise ValueError('no matching rule for (0j'.format(noun)) 


1. ARARA. BET UM Eme SEOTERUZEBEMBIEBSIIT A, Ef FH 
line.split(None, 3) 获取 三 个 “ 列 " 的 值 并 将 它们 赋值 给 三 个 局 部 变量 。 

2. 然后 使 用 了 yield. 但 生产 了 什么 呢 ? 通过 老 朋 友 一 一 
build match and apply functions() 动态 创建 的 两 个 画 数 ， 这 和 与 之 前 的 例子 是 一 样 的 。 
换 而 让 之 ， rules() 是 按照 需求 连续 生成 匹配 和 应 用 画 数 的 生成 器 。 

3. 由 于 rules() 是 生成 器 ， 可 直接 在 for 循环 中 使 用 它 。 对 for 循环 的 第 一 次 通 万 ， 
可 以 调用 rules() 画 数 打开 模式 文件 ， 读 取 第 一 行 ， 从 该 行 的 模式 动态 创建 一 个 匹配 酌 
数 和 应 用 画 数 ， 然 后 生成 动态 创建 的 画 数 。 对 for 循环 的 第 二 次 通 历 ， 将 会 精确 地 回 到 
rules() 中 上 次 离开 的 位 置 (在 for line in pattern file 循环 的 中 间 ) o 要 进行 的 第 
一 项 工作 是 读 取 文 件 〈 仍 处 于 打开 状态 ) 的 下 一 行 ， 基 于 该 行 的 模式 动态 创建 另 一 匹配 
和 应 用 范 数 ， 然 后 生成 两 个 汞 数 。 





通过 第 四 步 获得 了 什么 呢 ? 启动 时 间 。 在 第 四 步 中 引入 plurala 模块 时 ， 它 读 取 了 整个 模式 
文件 ， 并 创建 了 一 份 所 有 可 能 规则 的 列表 ， 甚 至 在 考虑 调用 pluralo KAZA ATER 
器 ， 可 以 轻松 地 处 理 所 有 工作 : 可 以 读 取 规则 ， 创 建 画 数 并 试用 它们 ， 如 果 该 规则 可 用 其 至 


可 以 不 读 取 文 件 剩 下 的 部 分 或 创建 更 多 的 函数 。 
失去 了 什么 ?性 能 | 每 次 调用 plural() KWA, | rules() 生成 器 将 从 头 开 始 这 意味 着 重 


新 打开 模式 文件 ， 并 从 头 开始 读 取 ， 每 次 一 行 。 





要 是 能 够 两 全 其 美 多 好 啊 : 最 低 的 启动 成 本 (无需 对 import 执行 任何 代码 ) ， 同 时 最 佳 的 
性 能 〈 无 需 一 次 次 地 创建 同一 画 数 ) 。 哦 ， 还 需 将 规则 保存 在 单独 的 文件 中 (因为 代码 和 数 
据 要 泾 渭 分 明 ) ， 还 有 就 是 永远 不 必 两 次 读 取 同一 行 。 


要 实现 该 目标 ， 必 须 建立 自己 的 生成 器 。 在 进行 此 工作 之 前 ， 必 须 对 Python 的 类 进行 学 习 。 


深入 阅读 


e PEP 255: 简单 生成 器 

e 理解 Python 的 “with” 语句 
e Python 中 的 闭合 

e 斐 波 那 契 数值 

e 英语 的 不 规则 复数 名 词 


Chapter 7 类 & tzr 


东 ， 西 是 西 ， 示 西 不 相 及 "一 拉 迪 亚 德 . 吉 卜 林 








深入 


eo er a JÆ yield 是 一 种 产生 一 个 迭代 器 却 不 需要 构建 
迭代 器 的 精密 小 巧 的 方法 。 告诉 你 我 是 什么 意思 。 


记得 菲 波 拉稀 生成 器 吗 ? 这 里 是 一 个 从 无 到 有 的 迭代 器 : 
[下 载 fibonacci2.py ] 


class Fib: 


''' 生 成 菲 波 拉稀 数列 的 迭代 器 ''' 


def _ init (self, max): 
self.max - max 


def _ iter (self): 
self.a = 0 
self b = 1 
return self 


def _ next (self): 
fib - self.a 
if fib » self.max: 
raise StopIteration 
self.a, self.b = self.b, self.a + self.b 
return fib 


让 我 们 一 行 一 行 来 分 析 。 


class Fib: 


类 的 定义 


Python 是 完全 面向 对 象 的 : 你 可 以 定义 自己 的 类 ， 从 你 自己 或 系统 自 带 的 类 继承 ， 并 生成 实 
例 。 


在 Python 里 定义 一 个 类 非常 简单 。 就 像 画 数 一 样 ， 没有 分 开 的 接口 定义 。 只 需 定义 类 就 开始 
编码 。 Python 类 以 保留 字 class 开始 ， 后 面 跟 类 名 。 技术 上 来 说 ， 只 需要 这 么 多 就 够 了 ， 


因为 一 个 类 不 是 必须 继承 其 他 类 。 
1. 类 名 是 Papayawhip, 没有 从 其 他 类 继承 。 类 名 通常 是 大 写字 母 分 隔 ， 


如 EachwordLikeThis , 但 这 只 是 个 习惯 ， 并 非 必须 。 
2. 你 可 能 猜 到 ， 类 内 部 的 内 容 都 需 缩 进 ， 就 像 男 数 中 的 代码 一 样 ， if 语句 ， for 循 
环 ， 或 其 他 代码 块 。 第 一 行 非 缩 进 代码 表示 到 了 类 外 。 


Papayawhip 类 没有 定义 任何 方法 和 属性 ， 但 依据 句法 ， 应 该 在 定义 中 有 东西 ， 这 就 是 pass 
语句 。 这 是 Python 保留 字 ， 意 思 是 “继续 ， 这 里 看 不 到 任何 东西 "。 这 是 一 个 什么 都 不 做 的 语 
句 ， 是 一 个 很 好 的 占 位 符 ， 如 果 你 的 画 数 和 类 什么 都 不 想 做 〈 删 空 本 数 或 类 ) 。 


Python 中 的 pass 就 像 Java 或 C 中 的 空 大 括号 对 ( 0). 
很 多 类 继承 自 其 他 类 ， 但 这 个 类 没有 。 很 多 类 有 方法 ， 这 个 类 也 没有 。 Python 类 不 是 必须 
有 东西 ， 除 了 一 个 名 字 。 特别 是 C++ 程序 员 发 现 Python 类 没有 显 式 的 构造 和 析 构 本 数 会 觉 
得 很 古怪 。 尽管 不 是 必须 ， Python 类 可 以 具有 类 似 构造 本 数 的 东西 : _ init () 方法 。 


. init () 方法 
本 示例 展示 rib 类 使 用 init 方法 。 


class Fib: 


1. 类 同样 可 以 (而 且 应 该 ) 具有 docstring ， 与 模块 和 方法 一 样 。 

2. 类 实例 创建 后 ， _init_() 方法 被 立即 调用 。 很 容易 将 其 一 一 但 技术 上 来 说 不 正确 一 一 
称 为 该 类 的 "构造 男 数 ”。 很 容易 ， 因 为 它 看 起 来 很 像 C++ 的 构造 画 数 ( 按 约 
E, init () 是 类 中 第 一 个 被 定义 的 方法 ) ， 行 为 一 致 (是 类 的 新 实例 中 第 一 片 被 执 
行 的 代码 ) , 看 起 来 完全 一 样 。 错 了 ， 因为 init Q 方法 调用 时 ， 对 象 已 经 创建 
了 ， 你 已 经 有 了 一 个 合法 类 对 象 的 引用 。 

每 个 方法 的 第 一 个 参数 ， 包 括 int (0) 方法 ， 永 远 指向 当前 的 类 对 象 。 习惯 上 ， 该 参数 


U} self 。 该 参数 和 C++ 或 Java 中 this 角色 一 样 ， 但 sef 不 是 Python 的 保留 字 ， 仅仅 
是 个 命名 习惯 。 虽然 如 此 ， 请 不 要 取 别 的 名 字 ， 只 用 self ; 这 是 一 个 很 强 的 命名 习惯 。 


在 init () 方法 中 ， sef 指向 新 创建 的 对 象 ; 在 其 他 类 对 象 中 ， 它 指 向 方法 所 属 的 实 
例 。 尽 管 需 在 定义 方法 时 显 式 指 定 self ， 调 用 方法 时 并 不 必须 明确 指定 。 Python 会 自动 


添加 。 


实例 化 类 


Python 中 实例 化 类 很 直接 。 实例 化 类 时 就 像 调 用 画 数 一 样 简单 ， 将 unie 0 方法 需要 的 
参数 传 入 。 返回 值 就 是 新 创建 的 对 象 。 


>>> import fibonacci2 
«fibonacci2.Fib object at Ox00DB8810» 


«class 'fibonacci2.Fib'» 


你 正 创 建 一 个 rib 类 的 实例 (在 fibonaccio 模块 中 定义 ) 将 新 创建 的 实例 赋 给 变 
量 fib e 你 传人 一 个 参数 100 ， 这 是 Fib 的 SET DOES) 方法 作为 max 参数 传人 的 结 


束 值 。 
2. fib 是 rib 的 实例 。 
3. 每 个 类 实例 具有 一 个 内 建 属性 ， _class ， 
包含 方法 如 getName() 和 getsuperclass() 获取 对 象 相 关 元 数据 。 


它 是 该 对 象 的 类 。 Java 程序 员 可 能 熟悉 
class 类 ， Python 
里 面 ， 这 类 元 数据 由 属性 提供 ， 但 思想 一 致 。 

4. 你 可 访问 对 象 的 docstring ， 就 像 画 数 或 模块 中 的 一 样 。 类 的 所 有 实例 共享 一 份 


docstring o 





Python 里 面 ， 和 调用 函数 一 样 简单 的 调用 一 个 类 来 创建 该 类 的 新 实例 。 与 C++ 或 


Java 不 一 样 ， 没 有 显 式 的 new 操作 符 。 
> jr EL 
3 例 变量 


继续 下 一 行 : 


class Fib : 
def | init (self, max): 


1. self.max 是 什么 ? 它 就 是 实例 变量 。 与 作为 参数 传人 . init () 方法 的 max 完全 是 
两 回 事 。 self.max 是 实例 内 “全 局 ” 的 。 这 意味 着 可 以 在 其 他 方法 中 访问 它 。 


class Fib : 
def _ init (self, max): 


def | next (self): 
fib - self.a 


1. self.max 在 | init () 方法 中 定义 ...... 
Pe 在 . next () 方法 中 引用 。 


例如 ， 如 果 你 创建 Fip 的 两 个 具有 不 同 最 大 值 的 实例 ， 


a 


实例 变量 特定 于 某 个 类 的 实例 。 
个 实例 会 记 住 自己 的 值 。 


>>> import fibonacci2 

>>> fibi = fibonacci2.Fib(100) 
>>> fib2 = fibonacci2.Fib(200) 
>>> fibi.max 

100 

>>> fib2.max 

200 


JESUS f ds 


现在 你 已 经 准备 学 习 如 何 创 建 一 个 迭代 器 了 。 人 迭代 器 就 是 一 个 定义 了 iter () 方法 的 


米 
Ko 


这 些 类 的 所 有 三 种 方法 ， "e iter ， 和 和 next ， 起 始 和 结束 均 为 一 对 下 划 
线 ( _ ) 字符 。 为 什么 这 样 ? 并 无 什么 神奇 之 处 ， 只 是 通常 表示 这 是 “特殊 方法 。 ”唯一 “ 特 
殊 " 的 地 方 ， 就 是 这 些 方法 不 是 直接 调用 的 ; 当 你 使 用 类 或 实例 的 某 些 语法 时 ，Python 会 自动 
调用 他 们 。 更 多 关于 特殊 方法 。 


米 





[下 载 fibonacci2.py ] 


self.max = max 
self.a 


self.b 


=0 
= 1 
return sel 


f 


fib = self.a 
if fib » self.max: 


self.a, self.b = self.b, self.a + self.b 


1， 从 无 到 有 创建 一 个 迭代 器 ， fip 应 是 一 个 类 ， 而 不 是 一 个 函数 。 

2.“ 调 用 ”Fip(max) 会 创建 该 类 一 个 真实 的 实例 ， 并 以 max 做 为 参数 调用 _init_() A 
法 。 init () 方法 以 实例 变量 保存 最 大 值 ， 以 便 随后 的 其 他 方法 可 以 引用 。 

3. 当 有 人 调用 iter(fib) 的 时 候 ， _iter () 就 会 被 调用 。 (正如 你 等 下 会 看 到 的 ， for 
循环 会 自动 调用 它 ， 你 也 可 以 自己 手动 调用 。) 在 完成 迭代 器 初始 化 后 ， CAI, 
重 置 我 们 两 个 计数 器 self.a 和 self.b) , iter () pidas dst 
next () 方法 的 对 象 。 在 本 例 (甚至 大 多 数 例子 ) P, ite (0) 仅 简 单 返 
self ， 因为 该 类 实现 了 自己 的 next 方法 。 

4. 当 有 人 在 迭代 器 的 实例 中 调用 next() 方法 时 ， next (0) 会 自动 调用 。 随后 会 有 更 多 
理解 。 

5. ¥ . next () 方法 抛 出 StopIteration 异常 ， 这 是 给 给 调用 者 表示 和 迭代 用 完了 的 信号 。 
和 大 多 数 异 常 不 同 ， 这 不 是 错误 ; 它 是 正常 情况 ， 仅 表示 迭代 器 没有 值 可 产生 了 。 AE 
调用 者 是 for 循环 ， 它 会 注意 到 该 stopIteration 异常 并 优雅 的 退出 。 ( 换 句 话说 ， 
它 会 知 掉 该 异常 。) 这 点 神奇 之 处 就 是 使 用 ror 的 关键 。 

6， 为 了 分 离 出 下 一 个 值 ， 迭代 器 的 _next_() 方法 简单 return 该 值 。 不 要 使 用 yield 


; 该 语法 上 的 小 甜头 仅 用 于 你 使 用 生成 器 的 时 候 。 这 里 你 从 无 到 有 创建 迭代 器 ， 使 用 
return RE. 


TERT? 太 好 了 。 让 我 们 看 如 何 调用 该 迭代 器 : 


>>> from fibonacci2 import Fib 

>>> for n in Fib(1000): 

TM print(n, end=' ') 
0112358 13 21 34 55 89 144 233 377 610 987 


为 什么 ?完全 一 模 一 样 ! 一 字 节 一 字 节 的 与 你 调用 Fibonacci-as-a-generator (模块 第 一 个 
字母 大 写 ) 相同 。 但 怎么 做 到 的 ? 


for 循环 内 有 魔力 。 下 面 是 究竟 发 生 了 什么 : 


e 如 你 所 见 ， for 循环 调用 Fib(1000) 。 这 返回 rio 类 的 实例 。 叫 它 fib_inst o 

e 背地 里 ， 且 十 分 聪明 的 ， for 循环 调用 iter(fib inst) , ERDARA. 叫 它 
fib iter 。 本 例 中 ， fib iter == fib inst, 因为 | iter () 方法 返回 self, 
但 for 循环 不 知道 (也 不 关心 ) 那些 。 

e 为 “循环 通过 ”迭代 器 ， for 循环 调用 next(fib iter) ， 它 又 调用 fib iter 对 象 的 
next () 方法 ， 产 生 下 一 个 菲 波 拉稀 计算 并 返回 值 。 for 拿 到 该 值 并 赋 给 n, 然 
后 执行 n 值 的 for 循环 体 。 

e for 循环 如 何 知道 什么 时 候 结束 ? 很 高 兴 你 问 到 。 当 next(fib_iter) HAH 
StopIteration 异常 时 ， for 循环 将 吞 下 该 异常 并 优雅 退出 。 (其 他 异常 将 传 过 并 如 常 
抛 出 。) 在 哪里 你 见 过 stopIteration 异常 ?当然 在 _next_() 方法 。 


复数 规则 和 迭代 器 

iter(f) 调用 fiter next(f) 调用 fnext 

现在 到 曲 终 的 时 候 了 。 我 们 重 写 复数 规则 生成 器 为 迭代 器 。 
[下 载 plural6.py ] 


class LazyRules: 
rules filename - 'plural6-rules.txt' 


def _ init (self): 
self.pattern file - open(self.rules filename, encoding-'utf-8') 
self.cache - [] 


def — iter (self): 
self.cache index - 0 
return self 


def _ next (self): 
self.cache index += 1 
if len(self.cache) »- self.cache index: 
return self.cache[self.cache index - 1] 


if self.pattern file.closed: 
raise StopIteration 


line - self.pattern file.readline() 
if not line: 

self.pattern file.close() 

raise StopIteration 


pattern, search, replace - line.split(None, 3) 

funcs - build match and apply functions( 
pattern, search, replace) 

self.cache.append(funcs) 

return funcs 





rules - LazyRules() 


因此 这 是 一 个 实现 了 ^ iter () 和 | next () 的 类 。 所 以 它 可 以 RAER. Am, MR 
实例 化 它 并 将 其 赋 给 rules 。 这 只 发 生 一 次 ， 在 import 的 时 候 。 


让 我 们 一 口 一 口 来 吃 : 
class LazyRules: 


rules filename - 'plural6-rules.txt' 


def | init (self): 


1， 当 我 们 实例 化 LazyRules 类 时 ， 打开 模式 文件 ， 但 不 读 取 任何 东西 。 (随后 再 进行 ) 
2. 打开 模式 文件 之 后 ， 初 始 化 缓存 。 随后 读 取 模式 文件 行 的 时 候 会 用 到 它 (在 
next () 方法 中 ) 。 


我 们 继续 之 前 ， 让 我 们 近 观 rules filename o BRE _ iter () 方法 中 定义 。 事 实 上 ， 它 
没 在 任何 方法 中 定义 。 它 定义 于 类 级 别 。 它 是 类 变量 ， 尽管 访问 时 和 实例 变量 一 样 
( self.rules filename ) , LazyRules 类 的 所 有 实例 共享 该 变量 。 


>>> import plural6 
>>> r1 = plural6.LazyRules() 
>>> r2 = plural6.LazyRules() 


'plural6-rules.txt' 
>>> r2.rules filename 
'plural6-rules.txt' 


>>> r2.rules filename 
'r2-override.txt' 

>>> ri.rules filename 
'plural6-rules.txt' 
'plural6-rules.txt' 


>>> ri.rules filename 
'papayawhip.txt' 


'r2-overridetxt' 


~ 


类 的 每 个 实例 继承 了 rules filename 属性 及 它 在 类 中 定义 的 值 。 
2. 修改 一 个 实例 属性 的 值 不 影响 其 他 实例 .…… 


09 0 也 不 会 修改 类 的 属性 。 可 以 使 用 特殊 的 class ”属性 来 访问 类 属性 (于 此 相对 的 
是 单独 实例 的 属性 ) 。 
4. i DR 所 有 仍然 继承 该 实例 的 值 的 实例 (如 这 里 的 ri ) 会 受 影响 。 


5. 已 经 覆盖 (overridden) 了 该 属性 (如 这 里 的 r2 ) 的 所 有 实例 将 不 受 影响 。 
现在 回 到 我 们 的 演示 : 


self.cache index = 0 


1. 无 论 何 时 有 人 一 如 for 循环 
调用 。 

2. 每 个 ite (0 方法 都 需要 做 的 就 是 必须 返回 一 个 迭代 器 。 在 本 例 中 ， 返 回 self ， 意 
味 着 该 类 定义 了 _next_() 方法 ， 由 它 来 关注 整个 迭代 过 程 中 的 返回 值 。 


调用 iter(rules) 的 时 候 ， — iter. () 方法 都 会 被 





pattern, search, replace = line.split(None, 3) 
pattern, search, replace) 


return funcs 


1. 无 论 何 时 有 人 一 如 for 循环 调用 _next_() 方法 ， next(rules) 都 跟着 被 调 
FB. 该 方法 仅 在 我 们 从 后 往 前 移动 时 比较 好 体会 。 所 以 我 们 就 这 么 做 。 

2. 男 数 的 最 后 一 部 分 至 少 应 该 眼熟 。 build_match_and_apply_functions() 六 数 还 没 修改 ; 
与 它 从 前 一 样 。 

3. 唯一 的 不 同 是 ， 在 返回 匹配 和 应 用 功能 之 前 (保存 在 元 组 funcs FB) ， 我 们 将 其 保存 到 


self.cache o 








从 后 往 前 移动 .…… 


def _ next (self): 


self.pattern file.close() 


1. 这 里 有 点 高 级 文件 操作 的 技巧 。 readline() 方法 (注意 : 是 单数 ， 不 是 复数 
readlines() ) 从 一 个 打开 的 文件 中 精确 读 取 一 行 ， 即 下 一 行 。 (文件 对 象 同样 也 是 迭 
代 器 ! 它 自 始 至 终 是 迭代 器 ......) 

2. 如果 有 一 行 readline() 可 以 读 ， lie 就 不 会 是 空 字符 串 。 甚至 文件 包含 一 个 空 行 ， 
line 将 会 是 一 个 字符 的 字符 串 Ue! ( 回 车 换行 符 ) 。 如 果 iine 是 真 的 空 字 符 串 ， 
就 意味 着 文件 已 经 没有 行 可 读 了 。 

3. 当 我 们 到 达 文 件 尾 时 ， 我 们 应 关闭 文件 并 抛 出 神奇 的 stoprteration 异常 。 记 住 ， 开 门 
见 山 的 说 是 因为 我 们 需要 为 下 一 条 规则 找到 一 个 匹配 和 应 用 功能 。 下 一 条 规则 从 文件 的 
下 一 行 获取 .…… 但 已 经 没有 下 一 行 了 1 所 以 ， 我 们 没有 规则 返回 。 ARR (J 
派对 结束 有 1) 


由 后 往 前 直到 . next () 方法 的 开始 e 


def _ next (self): 
self.cache index += 1 
if len(self.cache) »- self.cache index: 


if self.pattern file.closed: 


1. self.cache 将 是 一 个 我 们 匹配 并 应 用 单独 规则 的 功能 列表 。 (至 少 那 个 应 该 看 起 来 熟 
Æ |)  self.cache index 记录 我 们 下 一 步 返回 的 缓存 条 目 。 如 果 我 们 还 没有 耗 尽 缓存 
(举例 如 果 self.cache 的 长 度 大 于 self.cache_index ) ， 那 么 我 们 就 会 命中 一 条 组 
存 ! WE! 我 们 可 以 从 缓存 中 返回 匹配 和 应 用 功能 而 不 是 从 无 到 有 创建 。 

2， 另 一 方面 ， 如 果 我 们 没有 从 缓存 中 命中 条 目 ， 并 且 文件 对 象 也 已 关闭 〈 这 会 发 生 ， 在 本 
方法 下 面 一 点 ， 正如 你 从 预览 的 代码 片段 中 所 看 到 的 ) ， 那 么 我 们 什么 都 不 能 做 。 如 果 
文件 被 关闭 ， 意 味 着 我 们 已 经 用 完了 它 一 一 我 们 已 经 从 头 至 尾 读 取 了 模式 文件 的 每 一 
行 ， 而 且 已 经 对 每 个 模式 创建 并 缓存 了 匹配 和 应 用 功能 。 文 件 已 经 读 完 ; 缓存 已 经 用 
完 ; 我 也 快 完 了 。 等 等 ， 什 么 ? 坚持 一 下 ， 我 们 几乎 完成 了 。 


放 到 一 起 ， 发 生 了 什么 事 ? 当 : 
e 当 模 块 引 入 时 ， 创 建 了 LazyRules 类 的 一 个 单一 实例 ， 叫 rules ， 它 打开 模式 文件 但 


并 没有 读 取 。 

。 当 要 求 第 一 个 匹配 和 应 用 功能 时 ， 检 查 缓存 并 发 现 缓存 为 空 。 于 是 ， 从 模式 文件 读 取 一 
行 ， 从 模式 中 创建 匹配 和 应 用 功能 ， 并 缓存 之 。 

e 假如 ， 因 为 参数 的 缘故 ， 正 好 是 第 一 行 匹 配 了 。 如 果 那 样 ， 不 会 有 更 多 的 匹配 和 应 用 会 
创建 ， 也 不 会 有 更 多 的 行 会 从 模式 文件 中 读 取 。 

e 更 进一步 ， 因为 参数 的 缘故 ， 假 设 调用 者 再 次 调用 plural() 画 数 来 让 一 个 不 同 的 单词 
变 复数 。 plural() KHAREY for 循环 会 调用 iter(rules) ， 这 会 重 置 缓存 索引 但 不 会 
重 置 打开 的 文件 对 象 。 

e 第 一 次 通 历 ， for 循环 会 从 rules 中 索要 一 个 值 ， 该 值 会 调用 其 next () 方法 。 然 

而 这 一 次 ， 缓存 已 经 被 装 人 了 一 个 匹配 和 应 用 功能 对 ， 与 模式 文件 中 第 一 行 模式 一 致 。 

由 于 对 前 一 个 单词 做 复数 变换 时 已 经 被 创建 和 缓存 ， 它 们 被 从 缓存 中 返回 。 缓存 索引 递 

增 ， 打 开 的 文件 无 需 访问 。 

假如 ， 因 为 参数 的 缘故 ， 这 一 轮 第 一 个 规则 不 匹配 。 所 以 for 循环 再 次 运转 并 从 
rules 请 求 一 个 值 。 这 会 再 次 调用 _next_() 方法 。 这 一 次 ， 缓存 被 用 完了 一 一 它 公 

有 一 个 条 目 ， 而 我 们 被 请 求 第 二 个 一 一 于 是 _next_() 方法 继续 。 从 打开 的 文件 中 读 

取 下 一 行 ， 从 模式 中 创建 匹配 和 应 用 功能 ， 并 缓存 之 。 

该 “ 读 取 创 建 并 缓存 "过 程 一 直 持续 直到 我 们 从 模式 文件 中 读 取 的 规则 与 我 们 想 变 复数 的 单 

词 不 匹配 。 如 果 我 们 确实 在 文件 结束 前 找到 了 一 个 匹配 规则 ， 我 们 仅 需 使 用 它 并 停止 ， 

文件 还 一 直 打开 。 文 件 指针 会 留 在 我 们 停止 读 取 ， 等 待 下 一 个 readline() 命令 的 地 

方 。 现 在 ， 缓 存 已 经 有 更 多 条 目 了 ， 并 且 再 次 从 头 开始 来 将 一 个 新 单词 变 复 数 ， 在 读 取 

模式 文件 下 一 行 之 前 ， 缓 存 中 的 每 一 个 条 目 都 将 被 尝试 。 


我 们 已 经 到 达 复 数 变换 的 极乐 世界 。 


1， 最 小 化 初始 代价 。 在 import 时 发 生 的 唯一 的 事 就 是 实例 化 一 个 单一 的 类 并 打开 一 个 文 
件 ( 但 并 不 读 取 ) 。 

2. 最 大 化 性 能 前 述 示例 会 在 每 次 你 想 让 一 个 单词 变 复 数 时 ， 读 通 文 件 并 动态 创建 功能 。 本 
版 本 将 在 创建 的 同时 缓存 功能 ， 在 最 坏 情况 下 ， 人 入 需要 读 完 一 欢 文件， 无 论 你 要 让 多 少 
单词 变 复 数 。 

3. 将 代码 和 数据 分 离 。 所 有 模式 被 存在 一 个 分 开 的 文件 。 代 码 是 代码 ， 数 据 是 数据 ， 二 者 


IY E 
永远 不 会 交织 。 


Dive Into Python3 


祝 这 真 的 是 极乐 世界 ? m, ERTE. 这 里 有 一 些 LazyRules 示例 需要 细 想 的 地 方 : 
模式 文件 被 打开 (在 _init () 中 ) ， 并 持续 打开 直到 读 取 最 后 一 个 规则 。 当 Python 
退出 或 最 后 一 个 LazyRules 类 的 实例 销毁 ， Python 会 最 终 关 闭 文件 ， 但 是 那 仍然 可 能 会 
是 一 个 很 长 的 时 间 。 如 果 该 类 是 一 个 "长 时 间 运 行 " 的 Python 进程 的 一 部 分 ，Python 可 能 
从 不 退出 ， LazyRules 对 象 就 可 能 一 直 不 会 释放 。 


这 种 情况 有 解决 办 法 。 不 要 在 _init () 中 打开 文件 并 让 其 在 一 行 一 行 读 取 规则 时 一 
直 打 开 ， 你 可 以 打开 文件 ， 读 取 所 有 规则 ， 并 立即 关闭 文件 。 或 你 可 以 打开 文件 ， 读 取 
一 条 规则 ， 用 teo 方法 保存 文件 位 置 ， 关 闭 文件 ， 后 面 再 次 打开 它 ， 使 用 seek() A 
法 继续 从 你 离开 的 地 方 读 取 。 或 者 你 不 需 担 心 这 些 就 让 文件 打开 ， 如 同 本 示例 所 做 。 
编程 即 是 设计 ， 而 设计 牵扯 到 所 有 的 权衡 和 限制 。 让 一 个 文件 一 直 打 开 太 长 时 间 可 能 是 
问题 ; 让 你 代码 太 复杂 也 可 能 是 问题 。 哪 一 个 是 更 大 的 问题 ， 依 赖 于 你 的 开发 团队 ， 你 
的 应 用 ， 和 你 的 运行 环境 。 


深入 阅读 


e 和 迭代 器 类 型 

e PEP 234: 迭代 器 ( lterators ) 

e PEP 255: 简 单 生成 器 ( Simple Generators ) 

系统 程序 员 的 生成 器 诀窍 (Generator Tricks for Systems Programmers ) 


Chapter 7 类 & 迭代 器 120 


Chapter 8 高 级 迭代 器 


" Great fleas have little fleas upon their backs to bite 'em, And little fleas have lesser 
fleas, and so ad infinitum. " — Augustus De Morgan 


深入 


H AWAII + IDAHO + IOWA + OHIO == STATES . 或 者 ， 换 个 说 法 ， 
510199 + 98153 + 9301 + 3593 == 621246 . 我 在 说 是 方言 吗 ?不 ， 这 只 是 一 个 谜 题 。 


让 我 来 给 你 解释 一 下 。 


HAWAII + IDAHO + IOWA + OHIO == STATES 
510199 + 98153 + 9301 + 3593 -- 621246 


m - o ockHds Sx 
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像 这 样 的 迹 题 被 称 为 cryptarithms 或 者 字母 算术 (alphametics)。 字 母 可 以 拼 出 实际 的 单词 ， 
而 如 果 你 把 每 一 个 字母 都 用 o-o 中 的 某 一 个 数字 代 蔡 后 , 也 同样 可 以 #8220; 拼 出 ” 一 个 算术 等 
式 。 关 键 的 地 方 是 找 出 每 个 字母 都 映射 到 了 哪个 数字 。 每 个 字母 所 有 出 现 的 地 方 都 必须 映射 
到 同一 个 数字 ， 数 字 不 能 重复 , 并 且 “ 单 词 "不 能 以 0 开始 。 


最 著名 的 字母 算术 这 题 是 SEND + MORE = MONEY o 


在 这 一 章 中 ， 我 们 将 深入 一 个 最 初 由 Raymond Hettinger 编 写 的 难以 置信 的 Python 程序 。 这 
个 程序 只 用 14 行 代码 来 解决 字母 算术 迹 题 。 


[下 载 alphametics.py ] 


Import re 
import itertools 


def solve(puzzle): 
words = re.findall('[A-Z]*', puzzle.upper()) 
unique characters - set(''.join(words)) 
assert len(unique characters) «- 10, 'Too many letters' 
first letters = {word[0] for word in words) 
- len(first letters) 
sorted characters = ''.join(first letters) + \ 
''.join(unique characters - first letters) 
characters - tuple(ord(c) for c in sorted characters) 
digits - tuple(ord(c) for c in '0123456789') 
zero = digits[0] 
for guess in itertools.permutations(digits, len(characters)): 
if zero not in guess[:n]: 
equation - puzzle.translate(dict(zip(characters, guess))) 
if eval(equation): 
return equation 


if name == ' qain ': 
import sys 
for puzzle in sys.argv[1:]: 
print(puzzle) 
solution - solve(puzzle) 
if solution: 
print(solution) 





你 可 以 从 命令 行 运行 这 个 程序 。 在 Linux 上 , 运行 情况 看 起 来 是 这 样 的 。( 取 决 于 你 机 器 的 速 
度 ， 计 算 可 能 要 花 一 些 时 间 ， 而 且 不 会 有 进度 条 。 耐 心 等 待 就 好 了 。 ) 


youQlocalhost:-/diveintopython3/examples$ python3 alphametics.py "HAWAII + IDAHO + IOWA + 
HAWAII + IDAHO + IOWA + OHIO = STATES 

510199 + 98153 + 9301 + 3593 == 621246 

youQlocalhost:-/diveintopython3/examples$ python3 alphametics.py "I + LOVE + YOU == DORA" 
I + LOVE + YOU == DORA 

1 + 2784 + 975 == 3760 

youQlocalhost:-/diveintopython3/examples$ python3 alphametics.py "SEND + MORE == MONEY" 
SEND + MORE == MONEY 

9567 + 1085 == 10652 


BERENGUER 


找到 一 个 模式 所 有 出 现 的 地 方 


字母 算术 过 题解 决 者 做 的 第 一 件 事 是 找到 谜 题 中 所 有 的 字母 (A-Z)。 





>>> Import re 
maeu poU A '8'] 


['SEND', 'MORE', 'MONEY'] 


1. re 模块 是 正则 表达 式 的 Python 实现 。 它 有 一 个 漂亮 的 函数 findall() , 接受 一 个 正则 
表达 式 和 一 个 字符 串 作 为 参数 ， 然 后 找 出 字符 串 中 出 现 该 模式 的 所 有 地 方 。 在 这 个 例子 
里 ， 模 式 匹配 的 是 数字 序列 。 findall() 画 数 返回 所 有 匹配 该 模式 的 子 字符 串 的 列表 。 

2. 这 里 正则 表达 式 匹 配 的 是 字母 序列 。 再 一 次 ， 返 回 值 是 一 个 列表 ， 其 中 的 每 一 个 元 素 是 


匹配 该 正则 表达 式 的 字符 串 。 


达 
这 是 另外 一 个 稍微 复 条 一 点 的 例子 。 


>>> re.findall(' s.*? s', "The sixth sick sheikh's sixth sheep's sick.") 
[' sixth s', " sheikh's s", " sheep's s"] 


很 惊奇 ? 这 个 正则 表达 式 寻 找 一 个 空格 ， 一 个 s， 然 后 是 最 短 的 任何 字符 构成 的 序列 ( .*? ), 
然后 是 一 个 空格 , 然后 是 另 一 个 s 。 在 输入 字符 串 中 ， 我 看 见 了 五 个 匹配 : 


The &lt;mark&gt;sixth s&lt;/mark&gt;ick sheikh's sixth sheep's sick. 
The sixth &lt;mark&gt;sick s&lt;/mark&gt;heikh's sixth sheep's sick. 
The sixth sick &lt;mark&gt;sheikh's s&lt;/mark&gt;ixth sheep's sick. 


The sixth sick sheikh's &lt;mark&gt;sixth s&lt;/mark&gt;heep's sick. 


oD 


The sixth sick sheikh's sixth &lt;mark&gt;sheep's s&lt;/mark&gt;ick. 


但 是 re.findaii() HŽ RRE f 37 ped, E, CRETE, SSIESUBRT. Ait 
么 呢 ? 因 为 它 不 会 返回 重 秋 的 匹配 。 第 一 个 匹配 和 第 二 个 匹配 是 重 怠 的 ， 所 以 第 一 个 被 返回 
了 ， 第 二 个 被 跳 过 了 。 然 后 第 三 个 和 第 四 个 重 和 又， 所 以 第 三 个 被 返回 了 ， 第 四 个 被 跳 过 了 。 
最 后 ， 第 五 个 被 返回 了 。 三 个 匹配 ， 不 是 五 个 。 


这 和 字母 算术 解决 者 没有 任何 关系 ; 我 只 是 觉得 这 很 有 趣 。 


在 序列 中 寻找 不 同 的 元 系 
Sets 使 得 在 序列 中 碍 找 不 同 的 元 素 变 得 很 简单 。 


>>> a list = ['The', 'sixth', 'sick', "sheik's", 'sixth', "sheep's", 'sick'] 


['sixth', 'The', "sheep's", 'sick', "sheik's") 
>>> a string = 'EAST IS EAST' 


[A', 1 P 'E', IEN UU. Sirio 
>>> words = ['SEND', 'MORE', 'MONEY'] 


' SENDMOREMONEY ' 


1. 给 出 一 个 有 若干 字符 串 组 成 的 列表 ， se) BS2IOR BI PU Fh AR ISTE SE RE SB ZR ERE IS e 
把 它 想象 成 一 个 for 循环 可 以 帮助 理解 。 从 列表 出 拿 出 第 一 个 元 素 ， 放 到 集合 。 第 二 
个 ， 第 三 个 ， 第 四 个 。 第 五 个 ， 等 等 , 它 已 经 在 集合 里 面 了 ， 因 为 Python 集合 不 允许 重 
复 ， 所 以 它 只 被 列 出 了 一 次 。 第 六 个 。 第 七 个 又 是 一 个 重复 的 ， 所 以 它 只 被 列 出 了 一 
次 。 原 来 的 列表 甚至 不 需要 事先 排 好 序 。 

2. 同样 的 技术 也 适用 于 字符 串 ， 因 为 一 个 字符 串 就 是 一 个 字符 序列 。 


3. 给 出 一 个 字符 串 列 表 ，'… .join( a_list ) 将 所 有 的 字符 串 拼接 成 一 个 。 
4. 所以， 给 出 一 个 字符 串 列 表 ， 这 行 代 码 返回 这 些 字符 串 中 出 现 过 的 不 重复 的 字符 。 


字母 算术 解决 者 通过 这 个 技术 来 建立 迷 题 中 出 现 的 不 同 字符 的 集合 。 


unique characters = set(''.join(words)) 


这 个 列表 在 接 下 来 迭代 可 能 的 解法 的 时 候 将 被 用 来 将 数字 分 配给 字符 。 


和 很 多 编程 语言 一 样 ，Python 有 一 个 assert 语句 。 这 是 它 的 用 法 。 


Traceback (most recent call last): 

File "«stdin»", line 1, in «module» 
AssertionError 
Traceback (most recent call last): 

File "«stdin»", line 1, in «module» 
AssertionError: Only for very large values of 2 


1. assert 语句 后 面 跟 任 何 合法 的 Python 表达 式 。 在 这 个 例子 里 ， 表达 式 d == 的 求 
值 结果 为 True ,所 以 assert. 语句 没有 做 任何 事情 。 

2. 然而 , 如 果 Python 表达 式 求 值 结 果 为 False, assert 语句 会 抛 出 一 个 AssertionError . 

3， 你 可 以 提供 一 个 人 类 可 读 的 消息 ， AssertionError 异常 被 抛 出 的 时 候 它 可 以 被 用 于 打印 
输出 。 


因此 , 这 行 代码 : 


assert len(unique characters) «- 10, 'Too many letters' 


if len(unique characters) » 10: 
raise AssertionError('Too many letters') 


字母 算术 六 题 使 用 这 个 asert 话 句 来 排除 逃 题 包含 多 于 10 个 的 不 同 的 字母 的 情况 。 因 为 每 
个 不 同 的 字母 对 应 一 个 不 同 的 数字 ， 而 数 子 只 有 10 个 ,含有 多 于 10 个 的 不 同 的 字母 的 这 题 是 不 
可 能 有 解 的 。 


生成 表达 式 类 似 生 成 器 函数 ， 只 不 过 它 不 是 画 数 。 


>>> unique characters = [('E', 'D', 'M', 'O', 'N', 'S', 'R', 'Y'3 
«generator object «genexpr» at OxOOBADC10- 


69 
>>> next(gen) 
68 


(69, 68, 77, 79, 78, 83, 82, 89) 


1. 生成 器 表达 式 类 似 一 个 yield 值 的 匿名 函数 。 表 达 式 本 身 看 起 来 像 列表 解析 , 但 不 是 用 方 括 
号 而 是 用 圆 括号 包围 起 来 。 

2， 生 成 器 表达 式 返 回 和 迭代 器 。 

3. 调用 next( gen ) 返回 迭代 器 的 下 一 个 值 。 

4. 如 果 你 愿意 ， 你 可 以 将 生成 器 表达 式 传 给 tuple() , list() ,或 者 set() 来 迭代 所 有 的 
值 并 且 返 回 元 组 ， 列 表 或 者 集合 。 在 这 种 情况 下 ， 你 不 需要 一 对 额外 的 括号 一 将 生成 器 
表达 式 ord(c) for c in unique characters 传 给 tuple() 加 数 就 可 以 了 , Python 会 推断 
出 它 是 一 个 生成 器 表达 式 。 


使 用 生成 器 表达 式 取代 列表 解析 可 以 同时 节省 CPU 和 内 存 (RAM)。 如 果 你 构造 一 个 列 
表 的 目的 仅仅 是 传递 给 别 的 函数 ，( 比 如 传递 给 tuple() 或 者 set() ), 用 生成 器 表达 式 
ERIE! 





这 里 是 到 达 同 样 目的 的 另 一 个 方法 , 使 用 生成 器 函数 : 


def ord map(a string): 
for c in a string: 
yield ord(c) 


gen - ord map(unique characters) 


生成 器 表达 式 功能 相同 但 更 紧凑 。 


计算 排列 ... 懒惰 的 方法 ! 


首先 , 排列 到 底 是 个 什么 东西 ? 排列 是 一 个 数学 概念 。( 取 决 于 你 在 处 理 哪 种 数学 ， 排 列 有 好 几 
个 定义 。 在 这 里 我 们 说 的 是 组 合 数学 , 如 果 你 完全 不 知道 组 合 数学 是 什么 也 不 用 担心 。 同 往常 
一 样 , 维基 百科 是 你 的 朋友 。 ) 





想法 是 这 样 的 ， 你 有 某 物件 (可 以 是 数字 ， 可 以 是 字母 ， 也 可 以 是 跳舞 的 熊 ) 的 一 个 列表 ， 接 着 
找 出 将 它们 拆 开 然 后 组 合成 小 一 点 的 列表 的 所 有 可 能 。 所 有 的 小 列表 的 大 小 必须 一 致 。 最 小 
是 1， 最 大 是 元 素 的 总 数目 。 哦 ， 也 不 能 有 重复 。 数 学 家 说 “让 我 们 找 出 3 个 元 素 取 2 个 的 排列 ” 
意思 是 你 有 一 个 3 个 元 素 的 序列 ， 然 后 你 找 出 所 有 可 能 的 有 序 对 。 


(1, 2) 
>>> next(perms) 
(1, 3) 
>>> next(perms) 


>>> next(perms) 
CHES 
>>> next(perms) 
(3, 1) 
>>> next(perms) 
(3, 2) 


Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
StopIteration 


1. itertools RREPA KHE FARA k, Sf permutations() WA, "EE AHHA 
的 所 有 辛苦 的 工作 的 做 了 。 

2. permutations() 函数 接受 一 个 序列 (这 里 是 3 个 数字 组 成 的 列表 ) 和 一 个 表示 你 要 的 排列 
的 元 素 的 数目 的 数字 。 画 数 返 回 迭 代 器 ， 你 可 以 在 for 循环 或 其 他 老 地 方 使 用 它 。 这 里 
我 通 历 迭代 器 来 显示 所 有 的 值 。 

3. [1,2, 3] 取 2 个 的 第 一 个 排列 是 (1，2) 。 

4.， 记 住 排列 是 有 序 的 : (2, 1) 和 (1，2) 是 不 同 的 。 

5. 这 就 是 了 。 这 些 就 是 [1，2，3] 取 两 个 的 所 有 排列 。 像 (1, 1) 或 者 (2, 2) 这 样 的 元 素 
对 没有 出 现 ， 因 为 它们 包含 重复 导致 它们 不 是 合法 的 排列 。 当 没有 更 多 排列 的 时 候 ， 迭 
代 器 抛 出 一 个 StopIteration 异常 。 


itertools 模块 有 各 种 各 样 的 有 趣 的 东西 。 
permutations() 函数 并 不 一 定 要 接受 列表 。 它 接 受 任何 序列 一 甚至 是 字符 串 。 


>>> import itertools 
>>> next(perms) 


>>> next(perms) 

GAT CH 'B') 

>>> next(perms) 

('B', VASE Mey 

>>> next(perms) 

('B', MON, 'A!) 

>>> next(perms) 

(MG VAS 'B') 

>>> next(perms) 

Ger VB 'A!) 

>>> next(perms) 

Traceback (most recent call last): 

File "«stdin»", line 1, in «module» 

StopIteration 


pu EDU B') 
(UB PAP KCI) CBI KET 'A') 
A') 


1. 字符 串 就 是 一 个 字符 序列 。 对 于 查找 排列 来 说 ， 字 符 串 'ABc' 和 列表 
['A', 'B', 'c'] 是 等 价 的 。 


2. ['A, 'B', 'c'] 取 3 个 的 第 一 个 排列 是 (Car, cmt ccr) 。 还 有 5 个 其 他 的 排列 一 同样 的 
3 个 字符 ， 不 同 的 顺序 。 
3. 由 于 permutations() 辑 数 总 是 返回 迭代 器 ， 一 个 简单 的 调试 排列 的 方法 是 闻 这 个 迭代 器 


千 给 内 建 的 list() 


itertools 模块 中 的 其 


>>> import itertools 


[('A', Li) (QUAM 2 CAS "357 
('B', 11") ('B', TAN CBI; HeD 
(Ces Uspuy (CUT u22) (CU '3')] 
[CA', 'B'), ('A', 'C'), ('B', 'C')] 


1. itertools. product() PX 


函数 来 立刻 看 见 


函数 返回 包含 两 个 序列 的 笛 卡 尔 乘 书 


所 有 的 排列 。 


它 有 趣 的 东西 


只 的 迭代 器 。 


2. itertools.combinations() E KHA ROES 2 3E Fe ABI 2E YE BRI ZR ADR ER. 3X 
和 itertools.permutations() 函数 很 类 似 ， 除了 不 包含 因为 只 有 顺序 不 同 而 重复 的 情况 。 


所 以 itertools.permutations('ABC', 2) 同时 返回 ('A', 'B') and ('B', 'A") ( 同 其 它 的 
排列 一 起 )，itertools .combinations('ABC'，2) 不 会 返回 ('B'，'A') ， 因 为 它 
和 CA 'B' ) 是 重复 的 ， 只 是 顺序 不 同 而 已 。 


[下 载 favorite-people.txt ] 


>>> names 

['Dora\n', 'Ethan\n', 'Wesley\n', 'John\n', 'Anne\n', 
'Mike\n', 'Chris\n', 'Sarah\n', 'Alex\n', 'Lizzie\n'] 
>>> names 

['Dora', 'Ethan', 'Wesley', 'John', 'Anne', 

'Mike', 'Chris', 'Sarah', 'Alex', 'Lizzie'] 

>>> names 

['Alex', 'Anne', 'Chris', 'Dora', 'Ethan', 

'John', 'Lizzie', 'Mike', 'Sarah', 'Wesley'] 

>>> names 

['Alex', 'Anne', 'Dora', 'John', 'Mike', 

'Chris', 'Ethan', 'Sarah', 'Lizzie', 'Wesley'] 


1. 这 个 表达 式 将 文本 内 容 以 一 行 一 行 


组 成 的 列表 的 形式 返回 


2， 不 幸 的 是 ， 0 list(open( filename )) 
包含 回 车 。 这 个 列表 解析 使 用 rstrip() 字符 串 方 法 移 除 每 一 行 尾 部 的 空白 。( 字 符 串 也 


有 一 个 


lstrip() 方法 移 除 头 部 的 空白 ， 以 及 strip() paio E ) 


3. sorted) 图 数 接受 一 个 列表 并 闻 它 排序 后 返回 。 上 默认 情况 下 ， 它 按 字母 序 排序 。 
4. Ai, sorted() 图 数 也 接受 一 个 贺 数 作为 key 参数 , 并 且 使 用 key 来 排序 。 在 这 个 例子 


里 ， 排 序 函 数 是 len() ,所 以 它 按 len( each item ) 来 排序 。 短 的 名 字 排 在 前 面 ， 然 后 是 
稍 长 ， 接 着 是 更 长 的 。 


这 和 itertools 模块 有 什么 关系 ? 很 高 兴 你 问 了 这 个 问题 。 


„continuing from the previous interactive shell... 
>>> import itertools 


>>> groups 

«itertools.groupby object at OxOOBB20CO» 

>>> list(groups) 

[(4, «itertools. grouper object at OxOOBAS8BFO-»), 
(5, «itertools. grouper object at 0x00BB4050>), 
(6, «itertools. grouper object at 0x00BBA40302)] 


print('Names with {0:d} letters:'.format(name length)) 
for name in name iter: 
print(name) 


Names with 4 letters: 
Alex 

Anne 

Dora 

John 

Mike 

Names with 5 letters: 
Chris 

Ethan 

Sarah 

Names with 6 letters: 
Lizzie 

Wesley 


1. itertools.groupby() Eze Se — 1 Fe AURI — T key IŽ, 并 且 返 回 一 个 生成 二 元 组 的 迭代 
器 。 每 一 个 二 元 组 包含 key_function( each item ) 的 结果 和 另 一 个 包含 着 所 有 共享 这 个 
key 结 果 的 元 素 的 迭代 器 。 

2. 调用 list() KARRAR Ux TOR aS, 也 就 是 说 你 生成 了 迭代 器 中 所 有 元 素 才 创造 了 这 
个 列表 。 和 迭代 器 没有 *“ 重 置 " 按 钮 。 你 一 旦 耗 尽 了 它 ， 你 没 法 重新 开始 。 如 果 你 想 要 再 循环 
一 次 (例如 ， 在 接 下 去 的 for 循环 里 面 )， 你 得 调用 itertools.groupby() 3E 6] $8 — 3T BAJO 
1X8. 

3. 在 这 个 例子 里 ， 给 出 一 个 已 经 按 长 度 排序 的 名 字 列 表 ， itertools.groupby(names, len) 将 
会 将 所 有 的 4 个 字母 的 名 字 放 在 一 个 迭代 器 里 面 ， 所 有 的 5 个 字母 的 名 字 放 在 另 一 个 揭 代 
器 里 ， 以 此 类 推 。 groupby() 画 数 是 完全 通用 的 ; 它 可 以 将 字符 串 按 首 字母 ， 将 数字 按 因 
子 数目 , 或 者 任何 你 能 想到 的 key 本 数 进行 分 组 。 








itertools.groupby() 只 有 当 输 入 序列 已 经 按 分 组 函数 排 过 序 才能 正常 工作 。 在 上 面 的 
例子 里 面 ， 你 用 len) 豆 数 分 组 了 名 字 列 表 。 这 能 工作 是 因为 输入 列表 已 经 按 长 度 排 过 
序 了 。 





Are you watching closely? 


>>> list(range(0, 3)) 
p 2 


>>> list(range(10, 13)) 
[10, 11, 12] 


[0, 1, 2, 10, 11, 12] 


[(0, 10), (1, 11), (2, 12)] 


[(0, 10), (1, 11), (2, 12)] 


[(0, 10), (1, 11), (2, 12), (None, 13)] 


1. 


好 吧 ， 


qus: 
('o' 


{ 1 


itertools.chain() ERA E Se 08 XR ES, 返回 一 个 迭代 器 ， 它 包 含 第 一 个 迭代 器 的 所 有 
内 容 ， 以 及 跟 在 后 面 的 来 自 第 二 个 迭代 器 的 所 有 内 容 。( 实 际 上 ， 它 接受 任何 数目 的 迭代 
器 ， 并 把 它们 按 传 入 顺序 串 在 一 起 。) 

zip() 汞 数 的 作用 不 是 很 常见 ， 结 果 它 却 非 常 有 用 : 它 接受 任何 数目 的 序列 然后 返回 一 

迭代 器 ， 其 第 一 个 元 素 是 每 个 序列 的 第 一 个 元 素 组 成 的 元 组 ， 然 后 是 每 个 序列 的 第 二 个 
元 素 (组 成 的 元 组 ) ， 以 此 类 推 。 

zip() 在 到 达 最 短 的 序列 结尾 的 时 候 停 止 。 range(10, 14) 有 四 个 元 素 (10, 11, 12, 和 

13), 但 是 range(o, 3) 只 有 3 个 , 所 以 zip() 画 数 返 回 包含 3 个 元 素 的 迭代 器 。 

相反 ，  itertools.zip longest() 图 数 在 到 达 最 长 的 序列 的 结尾 的 时 候 才 停止 , 对 短 序列 结 
尾 之 后 的 元 素 填 入 None 值 . 


这 些 都 很 有 趣 ， 但 是 和 字母 算术 迷 题 解决 者 有 什么 联系 呢 ? 请 看 下 面 : 
>>> characters = ('S', 'M', 'E', 'D', 'O UNSER YT 
55 guess 二 CF C2 'o', eph. A !5! Bou TARN) 
SL Yio EM » ( '0'), ('D', '3'), 
4'), ('N' » ( 2615) 7 OY Lyn) 
E': 1o27 ipe: CR !IM': 524 Fii raum 
!'N': Toim Ute e yas TRES tew a Ee EE 


1. 给 出 一 个 字母 列表 和 一 个 数字 列表 (两 者 的 元 素 的 形式 都 是 1 个 字符 的 字符 串 )，zip K 


按 顺序 创建 一 组 组 字母 ， 数 字 对 。 

为 什么 这 很 酷 ? 因为 这 个 数据 结构 正好 可 以 用 来 传递 给 dict() KARU ELFER A it, 
对 应 数字 为 值 的 字典 。( 这 不 是 实现 这 个 目的 唯一 方法 。 你 当然 可 以 使 用 字典 解析 来 直接 
创建 字典 。) 尽管 字典 的 打印 形式 以 另 一 个 顺序 列 出 了 这 些 键 值 对 (字典 本 身 没有 #8220; 
顺序 ”), 但 是 你 可 以 看 见 每 一 个 字母 都 按 characters 和 guess 序列 的 原始 顺序 对 应 到 了 
相应 的 数字 。 


算术 谜 题解 决 者 使 用 这 个 技术 对 每 一 个 可 能 的 解法 创建 一 个 将 过 题 中 的 字母 映射 到 解法 中 的 
数字 的 字典 。 


characters = tuple(ord(c) for c in sorted characters) 
digits - tuple(ord(c) for c in '0123456789') 


for guess in itertools.permutations(digits, len(characters)): 


«mark»-equation = puzzle.translate(dict(zip(characters, guess)))«/mark» 


但 是 translate() 方法 是 什么 呢 ? 啊 哈 , 我 们 现在 到 了 真正 有 趣 的 部 分 了 。 


一 种 新 的 操作 字符 串 的 方法 


Python 字符 串 有 很 多 方法 。 我 们 在 字符 串 章 节 中 学 习 了 其 中 一 些 : lower() ，count() ,和 
format() 。 现 在 我 要 给 你 介绍 一 个 强大 但 鲜 为 人 知 的 操作 字符 串 的 技术 : translate) 方 
法 。 


(65: 79) 


' MORK' 


1. 字符 串 翻译 从 一 个 转换 表 开 始 , 转换 表 就 是 一 个 将 一 个 字符 映射 到 另 一 个 字符 的 字典 。 实 
际 上 , “字符 ”是 不 正确 的 一 转换 表 实 际 上 是 将 一 个 字 节 (byte) 映 射 到 另 一 个 。 

2， 记 住 ，Python 3 中 的 字 节 是 整形 数 。 ord() 画 数 返回 字符 的 ASCIl 码 。 在 这 个 例子 中 ， 
字符 是 A-Z, 所 以 返回 的 是 从 65 到 90 的 字 节 。 

3， 一 个 字符 串 的 translate() 方法 接收 一 个 转换 表 ， 并 用 它 来 转换 该 字符 串 。 换 句 话 说 ， 它 
将 出 现在 转换 表 的 键 中 的 字 节 替换 为 该 键 对 应 的 值 。 在 这 个 例子 里 ， 将 MARK “翻译 为 ” 


MORK . 





现在 你 开始 进入 真正 有 趣 的 部 分 了 。 
这 和 解决 字母 算术 迹 题 有 什么 关系 呢 ? 实际 上 ， 关 系 大 着 呢 。 


>>> characters 
(83, 77, 69, 68, 79, 78, 82, 89) 


>>> guess 
(57, 49, 53, 55, 48, 54, 56, 50) 


>>> translation table 
(68: 55, 69: 53, 77: 49, 78: 54, 79: 48, 82: 56, 83: 57, 89: 50) 


'9567 + 1085 == 10652' 


1. 使 用 生成 器 表达 式 , 我 们 快速 的 计算 出 字符 串 中 每 个 字符 的 字 节 
值 。 characters 是 alphametics.solve() Peko FR B sorted characters 的 示例 值 . 
2. 使 用 另 一 个 生成 器 表达 式 ， 我 们 快速 的 计算 出 字符 串 中 每 个 数字 的 字 节 值 。 计 算 结 
R guess , 正好 是 alphametics.solve() ES 2L ER BA itertools.permutations() 函数 返回 值 的 


3. 过 将 characters 和 guess zipping 出 来 的 元 素 对 序列 构造 出 的 字典 由 来 作为 转换 表 。 
is alphametics.solve() 在 for 循环 里 面 干 的 事情 。 

4. 最 后 我 们 将 转换 表 传 递 给 原始 字符 串 的 translate() 方法 。 ; 这 会 特 字 符 串 中 的 每 个 字母 转 
化 成 相应 的 数字 (基于 characters 中 字母 和 guess 中 的 数字 )。 结果 是 一 个 字符 串 形 式 的 
合法 的 Python 表达 式 。 


这 相当 今 人 难忘 。 但 你 能 对 正巧 是 一 个 合法 Python 表达 式 的 字符 串 干 什么 呢 ? 


将 任何 字符 串 作 为 Python 表达 式 求 值 


这 是 迹 题 的 最 后 一 部 分 (或 者 说 , 迹 题 解决 者 的 最 后 一 部 分 )。 经 过 华丽 的 字符 串 操 作 ， 我 们 得 
到 了 类 似 '9567 + 1085 == 10652' 这 样 的 一 个 字符 串 。 但 那 是 一 个 字符 串 ， 字 符 串 有 什么 好 
的 ?输入 eval() , Python 通用 求 值 工具 


>>> eval('i + 1 == 2') 
True 


>>> eval('1 + 1 == 3') 

False 

>>> eval('9567 + 1085 == 10652!) 
True 


但 是 等 一 下 ， 不 止 这 些 ! eval) 并 不 限于 布尔 表达 式 。 它 能 处 理 任何 Python 表达 式 并 且 返 
回 任何 数据 类 型 。 


>>> eval( 1 "A" + "pn ) 


'AB' 

>>> eval('"MARK".translate([65: 79))') 
'MORK' 

>>> eval('"AAAAA".count("A")') 

5 

>>> eval('["*"] * 5!) 

[6553s VRR I TAI ioa] 


等 一 下 ， 还 没完 呢 


»»» = 5 
25 


25 
>>> import math 


2. 2360679774997898 


1. eval() 接受 的 表达 式 可 以 引用 在 eval() 之 外 定义 的 全 局 变量 。 如 果 ( eval() ) 在 函数 内 
被 调用 , 它 也 可 以 引用 局 部 变量 。 

2. AREZ. 

3， 以 及 模块 。 


R, $F... 


>>> import subprocess 


'Desktop Library Pictures \ 
Documents Movies Public \ 
Music Sites' 


1. subprocess 模块 允许 你 执行 任何 shell 命 令 并 以 字符 串 形 式 获 得 输出 。 
2， 执 行 任 意 的 shell 命 令 可 能 会 导致 永久 的 〈 不 好 的 ) 后 果 。 


更 坏 的 是 ， 由 于 存在 全 局 函数 _import_() ， 它 接收 字符 串 形 式 的 模块 名 ， 导 入 模块 ， 并 返 
回 模块 的 引用 。 和 eval() 的 能 力 结 合 起 来 ， 你 可 以 构造 一 个 单独 的 表达 式 来 删除 你 所 有 的 文 
件 : 


1， 现 在 想象 一 下 'rm -rf ~' 的 输出 。 实 际 上 它 不 会 有 任何 输出 ， 但 是 你 也 不 会 有 任何 文件 
还 留 着 。 


eval() z&3f 3c B^J 


好 吧 , 3B ERDER BL EIS FERE) AAT R. MAREEA ALES 

用 eval() 。 当 然 ， 关 键 的 部 分 是 确定 什么 是 “可 信任 的 "、 但 有 一 点 我 敢 肯 定 : 你 不 应 该 将 这 个 
字母 算术 表达 式 放 到 网 上 最 为 一 个 小 的 web 服 务 。 不 要 错误 的 认为 , “Gosh, 这 个 画 数 在 求 值 

以 前 做 了 那么 多 的 字符 串 操 作 。 我 想 不 出 谁 能 利用 这 个 漏洞 。 ”会 有 人 找 出 穿 过 这 些 字符 串 操 
作 把 危险 的 可 执行 代码 放 进 来 的 方法 的 。( 更 奇怪 的 事情 都 发 生 过 。), 然后 你 就 得 和 你 的 服务 

器 说 再 见 了 。 


肯定 有 某 种 办 法 可 以 安全 的 求 值 表 达 式 吧 ? 将 eval) 放 到 一 个 不 能 访问 和 伤害 外 部 世界 
BgIPE EIE. m, 对 也 不 对 。 


>>> x25 

Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
File "«string»", line 1, in «module» 

NameError: name 'x' is not defined 

>>> import math 


Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
File "«string»", line 1, in «module» 

NameError: name 'math' is not defined 


1. 传 给 eval() 图 数 的 第 二 和 第 三 个 函数 担当 了 求 值 表达 式 是 的 全 局 和 局 部 名 宇 空间 的 角 
色 。 在 这 个 例子 里 ， 它 们 都 是 空 的 ， 意 味 着 当 字 符 串 "x * 5" 被 求 值 的 时 候 , 在 全 局 和 本 
地 的 名 字 空 间 都 没有 变量 X ,所 以 eval() 抛 出 了 一 个 异常 。 

2， 你 可 以 通过 一 个 个 列 出 的 方式 选择 性 在 全 局 名 字 空 间 里 面包 含 一 些 值 。 这 些 一 并 且 这 有 
这 些 一 变量 在 求 值 的 时 候 可 用 。 

3， 即 使 你 刚刚 导入 了 math 模块 , 你 没有 在 传 给 eval() 酌 数 的 名 字 空 间 里 包含 它 ， 所 以 求 值 


失败 了 。 


哎呀 ， 这 很 简单 。 让 我 来 做 一 个 字母 算术 迹 题 的 Web 服 务 吧 ! 
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1， 即 使 你 传 入 空 的 字典 作为 全 局 和 局 部 名 字 空 间 ， 所 有 的 Python 内 建 画 数 在 求 值 时 还 是 可 
用 的 。 所 以 pow(5，2) 可 以 工作 , 因为 5 和 2 是 字面 量 ， 而 pow() EAER. 

2. 很 不 幸 (如 果 你 不 明白 为 什么 不 幸 ， 继 续 读 。)，_ import () 也 是 一 个 内 建 画 数 ， 所 以 
它 也 能 工作 。 


是 的 ， 这 意味 着 即使 你 在 调用 eval) 的 时 候 显 式 的 将 全 局 和 局 部 名 字 空 间 设置 为 空 字典 ， 你 
仍然 可 以 做 坏事 。 


>>> eval(" import ('subprocess').getoutput('rm /some/random/file')", (3, (31) 


SLUT. 幸亏 我 没有 做 那个 字母 算术 web 服 务 。 存 在 任何 安全 的 使 用 eval() 的 方法 吗 ? 8, 有 也 
没有 。 


>>> eval(" import ('math').sqrt(5)", 
Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
File "«string»", line 1, in «module» 
NameError: name ' import ^ is not defined 
>>> eval(" import ('subprocess').getoutput('rm -rf /')", 
Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
File "«string»", line 1, in «module» 
NameError: name ' import ^ is not defined 


1. 为 了 安全 的 求 值 不 受信 任 的 表达 式 , 你 需要 定义 一 个 将 "_builtins " 映射 为 
None (Python 的 空 值 ) 的 全 局 名 字 空 间 字 典 . EAR, AE KHAAA 
做 "builtins_" 的 伪 模 块 内 。 这 个 伪 模 块 ( 即 内 建 函 数 的 集合 ) 在 没有 被 你 显 式 的 覆盖 
的 情况 下 对 被 求 值 的 表达 式 是 总 是 可 用 的 。 

2. 请 确保 你 覆盖 的 是 _buiitins。” 。 不 是 _ builtin  ，_ built-ins ,或 者 其 它 某 个 交 
量 ， 否 则 程序 还 是 可 以 运行 但 是 会 有 巨大 的 风险 。 


那么 eval() 现在 安全 了 ? am. 是 也 不 是 。 


>>> eval("2 ** 2147483647", 


1， 即 使 不 能 访问 到 builtins ,你 还 是 可 以 开启 一 个 拒绝 服务 攻击 。 例 如 , 试图 求 2 的 
2147483647 次 方 会 导致 你 的 服务 器 的 CPU 利用 率 到 达 100% 一 段 时 间 。( 如 果 你 在 交互 


式 shell 中 试验 这 个 , 请 多 按 几 次 ctri-c 来 跳出 来 。) 技术 上 讲 ， 这 个 表达 式 最 终 将 会 返 
回 一 个 值 , 但 是 在 这 段 时 间 里 你 的 服务 器 将 哈 也 干 不 了 。 


最 后 , Python 表达 式 的 求 值 是 可 能 达到 某 种 意义 的 “安全 ”的 , 但 结果 是 在 现实 生活 中 没什么 
用 。 如 果 你 只 是 玩 玩 没有 问题 ， 如 果 你 只 给 它 传递 安全 的 输入 也 没有 问题 。 但 是 其 它 的 情况 
完全 是 自 找 麻烦 。 


把 所 有 东西 放 在 一 起 


总 的 来 说 : 这 个 程序 通过 暴力 解决 字母 算术 谜 题 ， 也 就 是 通过 穷 举 所 有 可 能 的 解法 。 为 了 达到 
目的 ， 它 


通过 re.findall() 加 数 找到 六 题 中 的 所 有 字母 

使 用 集合 和 set) 画 数 找到 迷 题 出 现 的 所 有 不 同 的 字母 

通过 assert 语句 检查 是 否 有 超过 10 个 的 不 同 的 字母 (意味 着 迹 题 无 解 ) 
通过 一 个 生成 器 对 象 将 字符 转换 成 对 应 的 ASCII 码 值 

使 用 itertools.permutations() KAGEM A RT BER BETA 

使 用 translate) 字符 串 方法 将 所 有 可 能 的 解 转 换 成 Python 表达 式 
使 用 eval) BAUAN zK f Python 表达 式 来 检验 解法 

返回 第 一 个 求 值 结果 为 True 的 解法 


ce MoocnRomNMc- 


.仅仅 14 行 代码 . 


进一步 阅读 


e itertools 模块 

e itertools 一 用 于 高 效 循 环 的 迭代 器 函数 

e 观看 Raymond Hettinger 在 PyCon 2009 上 的 “Easy AI with Python" 演讲 

e Recipe 576615: Alphametics solver, Raymond Hettinger 的 原始 的 适用 于 Python 2 的 算 
木 迹 题解 决 程序 

e More of Raymond Hettinger's recipes in the ActiveState Code repository 

。 算 木 迷 题 在 维基 百科 上 的 页 面 

e FERS, 包含 很 多 迹 题 以 及 一 个 创建 你 自己 的 迷 题 的 工具 


非常 感谢 Raymond Hettinger 同 意 重 现 授权 他 的 代码 ， 因 此 我 才能 将 它 移植 到 Python 3 并 作为 
本 章 的 基础 。 


Chapter 9 单元 测试 


" Certitude is not the test of certainty. We have been cocksure of many things that were 


not so. " — Oliver Wendell Holmes, Jr. 


(不 要 ) 深入 


在 此 章节 中 ， 你 将 要 编写 及 调试 一 系列 用 于 阿拉 伯 数 字 与 罗马 数字 相互 转换 的 方法 。 你 阅读 
了 在 “案例 学 习 : 罗马 数字 ”中 关于 构建 及 校 验 罗马 数字 的 机 制 。 那 么 ， 现 在 考虑 扩展 该 机 制 为 
一 个 双向 的 方法 。 


罗马 数字 的 规则 引出 很 多 有 意思 的 结果 : 


1. 只 有 一 种 正确 的 途径 用 阿拉 伯 数 字 表 示 罗 马 数 字 。 

2.， 反 过 来 一 样 ， 一 个 字符 串 类 型 的 有 效 的 罗马 数字 也 仅 可 以 表示 一 个 阿拉 伯 数 字 (HD ox 
种 转换 方式 也 是 只 有 一 种 ) 。 

3. 只 有 有 限 范围 的 阿拉 伯 数 字 可 以 以 罗马 数字 表示 ， 那 就 是 1-3999。 而 罗马 数字 表示 大 数 
字 却 有 几 种 方式 。 例 如 ， 为 了 表示 一 个 数字 连续 出 现时 正确 的 值 则 需要 乘 以 1000 。 为 了 
达到 本 节 的 目的 ， 限 定 罗 马 数字 在 1 到 3999 之 间 。 

4. 无 法 用 罗马 数字 来 表示 0 。 

.无 法 用 罗马 数字 来 表示 负数 。 

6. 无 法 用 罗马 数字 来 表示 分 数 或 非 整 数 。 


现在 ， 开 始 设 计 roman.py 模块 。 它 有 两 个 主要 的 方法 : to_roman() 及 

from roman() o to roman() 方法 接收 一 个 从 1 到 3999 之 间 的 整 型 数字 ， 然后 返回 一 
字符 串 类 型 的 罗马 数字 。 

到 的 操作 : 编写 一 个 测试 用 例 来 检测 to roman 


在 这 里 停 下 来 。 现 在 让 我 们 进行 一 些 意 想 不 
想 得 没 错 : 你 正在 编写 测试 尚未 编写 代码 的 代码 。 


HAES EM TREDE, 你; 
这 就 是 所 谓 的 测试 驱动 开发 或 TDD。 那 两 个 转换 方法 ( to_roman() 及 之 后 的 

from roman() ) 可 以 独立 于 任何 使 用 它们 的 大 程序 而 作为 一 个 单元 来 被 编写 及 测试 。 Python 
自 带 一 个 单元 测试 框架 ， 被 恰当 地 命名 为 ”unittest 模块 。 

单元 测试 是 整个 以 测试 为 中 心 的 开发 策略 中 的 一 个 重要 部 分 。 编 写 单 元 测试 应 该 安排 在 项 目 
的 早期 ， 同 时 要 让 它 随 同 代码 及 需求 变更 一 起 更 新 。 很 多 人 都 坚持 测试 代码 应 该 先 于 被 测试 
代码 的 ， 而 这 种 风格 也 是 我 在 本 节 中 所 主张 的 。 但 是 ， 不 管 你 何 时 编 守 ， 单 元 测试 都 是 有 好 
处 的 。 

e 在 编写 代码 之 前 ， 通 过 编写 单元 测试 来 强迫 你 使 用 有 用 的 方式 细 化 你 的 需求 。 

e 在 编写 代码 时 ， 单 元 测试 可 以 使 你 避免 过 度 编 码 。 当 所 有 测试 用 例 通过 时 ， 实 现 的 方法 


就 完成 了 。 

。 重 构 代码 时 ， 单 元 测试 用 例 有 助 于 证 明 新 版 本 的 代码 跟 老 版 本 功能 是 一 致 的 。 

e 在 维护 代码 期 间 ， 如 果 有 人 对 你 大 喊 : 你 最 新 的 代码 修改 破坏 了 原 有 代码 的 状态 ， 那 么 
此 时 单元 测试 可 以 帮助 你 反驳 (“先生 ， 所 有 单元 测试 用 例 通 过 了 我 地 提交 代码 的 ...”) 。 

e 在 团队 编码 中 ， 绩 密 的 测试 套件 可 以 降低 你 的 代码 影响 别人 代码 的 机 会 ， 这 是 因为 你 需 
要 优先 执行 别人 的 单元 测试 用 例 。 (我 合 经 在 代码 冲刺 见 过 这 种 实践 。 一 个 团队 把 任务 
分 解 ， 每 个 人 领取 其 中 一 小 部 分 任务 ， 同 时 为 其 编写 单元 测试 ;然后 ， 团 队 相互 分 享 他 们 
的 单元 测试 用 例 。 这 样 ， 所 有 人 都 可 以 在 编码 过 程 中 提前 发 现 谁 的 代码 与 其 他 人 的 不 可 
以 良好 工作 。) 


一 个 简单 的 问题 
每 个 测试 都 是 一 个 孤岛 。 
一 个 测试 用 例 久 回答 一 个 关于 它 正 在 测试 的 代码 问题 。 一 个 测试 用 例 应 该 可 以 : 


e ...... 完全 自动 运行 ， 而 不 需要 人 工 干预 。 单 元 测试 几乎 是 全 自动 的 。 

IM 自主 判断 被 测试 的 方法 是 通过 还 是 失败 ， 而 不 需要 人 工 解 释 结果 。 

Moor 独立 运行 ， 而 不 依赖 其 它 测试 用 例 (即使 测试 的 是 同样 的 方法 ) 。 即 ， 每 一 个 测试 
用 例 都 是 一 个 孤岛 。 


让 我 们 据 此 为 第 一 个 需求 建立 一 个 测试 用 例 : 
1. to roman() 方法 应 该 返回 代表 1 - 3999 的 罗马 数字 。 


这 些 代码 功效 如 何 并 不 那么 显而易见 。 它 定义 了 一 个 没有 init 方法 的 类 。 而 该 类 当然 有 
其 它 方法 ， 但 是 这 些 方法 都 不 会 被 调用 。 在 整个 脚本 中 ， 有 一 个 main 块 ， 但 它 并 不 引用 该 类 
及 它 的 方法 。 但 我 承诺 ， 它 做 别 的 事情 了 。 


import romani 
import unittest 


known values = ( (1, 'I'), 


(2, HS, 
(3, 'III'), 
(4, 'IV'), 
(5, V"), 
(6, 'VI*), 
(7, 'VII'), 
(8, 'VIII'), 
(9, "IX'), 
(10, 'X'), 
(50, 'L'), 
(100, 'C'), 
(500, 'D'), 
(1000, 'M'), 


(33, XE), 

(148, 'CXLVIII'), 
(294, 'CCXCIV'), 
(312, 'CCCXII'), 
(421, 'CDXXI'), 

(528, 'DXXVIII'), 
(621, 'DCXXI'), 

(782, 'DCCLXXXII'), 
(870, 'DCCCLXX'), 
(941, 'CMXLI'), 
(1043, 'MXLIII'), 
(1110, 'MCX'), 

(1226, 'MCCXXVI'), 
(1301, 'MCCCI'), 
(1485, 'MCDLXXXV'), 
(1509, 'MDIX'), 
(1607, 'MDCVII'), 
(1754, 'MDCCLIV'), 
(1832, 'MDCCCXXXII'), 
(1993, 'MCMXCIII'), 
(2074, 'MMLXXIV'), 
(2152, 'MMCLII'), 
(2212, 'MMCCXII'), 
(2343, 'MMCCCXLIII'), 
(2499, 'MMCDXCIX'), 
(2574, 'MMDLXXIV'), 
(2646, 'MMDCXLVI'), 
(2723, 'MMDCCXXIII'), 
(2892, 'MMDCCCXCII'), 
(2975, 'MMCMLXXV' ), 
(3051, 'MMMLI'), 
(3185, 'MMMCLXXXV' ), 
(3250, 'MMMCCL'), 
(3313, 'MMMCCCXIII'), 
(3408, 'MMMCDVIII'), 
(3501, 'MMMDI'), 
(3610, 'MMMDCX'), 
(3743, 'MMMDCCXLIII'), 
(3844, 'MMMDCCCXLIV'), 
(3888, 'MMMDCCCLXXXVIII'), 
(3940, 'MMMCMXL'), 


'''to roman should give known result with known input''' 
for integer, numeral in self.known values: 


if name == dead rre 
unittest.main() 





1. 为 了 编写 测试 用 例 ， 首 先 使 该 测试 用 例 类 成 为 unittest 模块 的 Testcase 
TestCase 提供 了 很 多 你 可 以 用 于 测试 特定 条 件 的 测试 用 例 的 有 用 的 方法 。 


2. 这 是 一 张 我 手工 核实 过 的 整 型 数字 -罗马 数字 对 的 列表 。 它 包括 最 小 的 十 个 数字 、 最 大 数 
字 、 每 一 个 有 唯一 一 个 字符 串 格 式 的 罗马 数字 的 数字 以 及 一 个 有 其 它 有 效 数 字 产 生 的 随 
机 数 。 你 没有 必要 测试 每 一 个 可 能 的 输入 ， 而 需要 测试 所 有 明显 的 边界 用 例 。 

3. 每 一 个 独立 的 测试 都 有 它 自己 的 不 含 参数 及 没有 返回 值 的 方法 。 如 果 方 法 不 抛 出 异常 而 
正常 退出 则 认为 测试 通过 ;否则 ， 测 试 失败 。 

4. 这 里 调用 了 真实 的 to roman() 方法 . (当然 ， 该 方法 还 没 编写 ;但 一 旦 该 方法 被 实现 ， 这 
就 是 调用 它 的 行 号 ) 。 注 意 ， 现 在 你 已 经 为 to_roman() 方法 定义 了 接口 : 它 必 须 包 含 
一 个 整 型 (被 转换 的 数字 ) 及 返回 一 个 字符 串 (罗马 数字 的 表示 形式 ) 。 如 果 接口 实现 
与 这 些 定义 不 一 致 ， 那 么 测试 就 会 被 视 为 失败 。 同 样 ， 当 你 调用 to_roman() 时 ， 不 要 
捕获 任何 异常 。 这 些 都 是 unittest 故意 设计 的 。 当 你 以 有 效 的 输入 调用 to_roman() 时 它 
不 会 抛 出 异常 。 如 果 to_roman() 抛 出 了 异常 ， 则 测试 被 视 为 失败 。 

5. 假设 to roman() 方法 已 经 被 正确 定义 ， 正 确 调用 ， 成 功 实现 以 及 返回 了 一 个 值 ， 那 么 
最 后 一 步 就 是 去 检查 它 的 返回 值 是 否 right 。 这 是 测试 中 一 个 普通 的 问题 。 Testcase X 
提供 了 一 个 方法 assertEqual 来 检查 两 个 值 是 否 相 等 。 如 果 to roman() ( result ) 的 返 
回 值 跟 已 知 的 期 望 值 g ( numeral ) 不 一 致 ， 则 抛 出 异常 ， 并 且 测 试 失败 。 如 果 两 值 相等 ， 
assertEqual 不 会 做 任何 事情 。 如 果 to_roman() 的 所 有 返回 值 均 与 已 知 的 期 望 值 一 
致 ， yu assertEqual TZ HERI SS, Tz, test to roman known values 最 终 会 会 
正常 退出 ， 这 就 意味 着 to_roman() 通过 此 次 测试 。 





编写 一 个 失败 的 测试 ， 然 后 进行 编码 直到 该 测试 通过 。 


一 旦 你 有 了 测试 用 例 ， 你 就 可 以 开始 编写 to roman() 方法 。 首 先 ， 你 应 该 用 一 个 空 方法 作 
为 存根 ， 同 时 确认 该 测试 失败 。 因 为 如 果 在 编写 任何 代码 之 前 测试 已 经 通过 ， 那 么 你 的 测试 
对 你 的 代码 是 完全 不 会 有 效果 的 ! 单元 测试 就 像 跳 舞 : 测试 先行 ， 编 码 跟随 。 编 写 一 个 失败 
的 测试 ， 然 后 进行 编码 直到 该 测试 通过 。 


# romani.py 


def to roman(n): 
'''convert integer to Roman numeral''' 


1. 在 此 阶段 ， 你 想 定义 to_roman() 方 法 的 APl ， 但 是 你 还 不 想 编写 〈 首 先 ， 你 的 测试 需要 
失败 ) 。 为 了 存根 ， 需 要 使 用 Python 保留 关键 字 pass ， 它 恰恰 什么 都 没 做 。 


在 命令 行 上 运行 romantest1.py 来 执行 该 测试 。 如 果 使 用 -v 命 令 行 参数 的 话 ， 会 有 更 详细 的 
命 出 来 帮助 你 精确 地 查看 每 一 条 用 例 的 执行 过 程 。 幸 运 的 话 ， 你 的 输出 应 该 如 下 : 


youQlocalhost:-/diveintopython3/examples$ python3 romantesti.py -v 


Traceback (most recent call last): 
File "romantesti.py", line 73, in test to roman known values 
self.assertEqual(numeral, result) 





运行 脚本 就 会 执行 unittest.main() ， 该 方法 执行 了 每 一 条 测试 用 例 。 而 每 一 条 测试 用 例 
都 是 romantest.py 中 的 类 方法 。 这 些 测试 类 没有 必要 的 组 织 要 求 ; 它 们 每 一 个 都 包括 一 
个 独立 的 测试 方法 ， 或 者 你 也 可 以 编写 一 个 含有 多 个 测试 方法 的 类 。 唯 一 的 要 求 就 是 每 


一 个 测试 类 都 必须 继承 unittest.Testcase o 


.对 于 每 一 个 测试 用 例 ， unittest 模块 会 打印 出 测试 方法 的 docstring ， 并 且说 明 该 测 


试 失败 还 是 成 功 。 正 如 预期 那样 ， 该 测试 用 例 失 败 了 。 


.对 于 每 一 个 失败 的 测试 用 例 ， unittest 模块 会 打印 出 详细 的 跟踪 信息 。 在 该 用 例 中 ， 


assertEqual() 的 调用 抛 出 了 一 个 AssertionError 的 异常 ， 这 是 因为 to roman(1) 本 
应 该 返回 'I' 的 ， 但 是 它 没有 。 (因为 没有 显示 的 返回 值 ， 故 方法 返回 了 Python 的 空 
值 None ) 


.在 说 明 每 个 用 例 的 详细 执行 结果 之 后 ， unittest 打印 出 一 个 简 述 来 说 明 " 多 少 用 例 被 执 


行 了 ”和 "测试 执行 了 多 长 时 间 ”。 


， 从 整体 上 说 ， 该 测试 执行 失败 ， 因 为 至 少 有 一 条 用 例 没有 成 功 。 如 果 测 试用 例 没有 通过 


的 话 ， unittest 可 以 区 别 用 例 执 行 失 败 跟 程 序 错误 的 。 像 assertXYZ 、  assertRaises 
这 样 的 assertEqual 方法 的 失败 是 因为 被 声明 的 条 件 不 是 为 真 ， 或 者 预期 的 异常 没有 抛 
出 。 错 误 ， 则 是 另 一 种 异常 ， 它 是 因为 被 测试 的 代码 或 者 单元 测试 用 例 本 身 的 代码 问题 


至 此 ， 你 可 以 实现 to_roman() 方法 了 。 


1. 


roman_numeral map = ( 


M', 1000), 
'CM', 900), 


(' 

( 

( 

( 
('C', 
('XC', 90), 
('L', 
( 

( 

( 

( 

( 


def to roman(n): 


'''convert integer to Roman numeral''' 
result - '' 
for numeral, integer in roman numeral map: 


result += numeral 


n -- integer 
return result 


roman numeral map 是 一 个 由 元 组 组 成 的 元 组 ， 它 定义 了 三 样 东西 : 代表 最 基本 的 罗马 数 
字 的 字符 、 罗 马 数字 的 顺序 GAF, M m 到 I ) 、 每 一 个 罗马 数字 的 阿拉 伯 数 值 。 每 
一 个 内 部 的 元 组 都 是 一 个 ( HU, ， 值 ) 对 。 它 不 但 定义 了 单字 符 罗马 数字 ， 也 定义 了 双 
字符 罗马 数字 ， 如 cM (“ 比 一 千 小 一 百 ”) 。 该 元 组 使 得 to roman() 方法 实现 起 来 更 简 
单 。 

这 里 得 益 于 roman numeral map 的 数据 结构 ， 因 为 你 不 需要 任何 特别 得 逻辑 去 处 理 减 
法 。 为 了 转化 成 罗马 数字 ， 通 过 查找 等 于 或 者 小 于 输入 值 的 最 大 值 来 简化 对 


roman numeral map 的 迭代 。 一 旦 找到 ， 就 把 罗马 数字 的 字符 串 追 加 至 输出 值 (result) 
末 段 ， 同 时 输入 值 要 减 去 相应 的 数值 ， 如 此 重复 。 


如 果 你 仍然 不 清楚 to roman() 如 何 工作 ， 可 以 在 while 循环 末 段 添加 printo 调用 : 


while n »- integer: 
result += numeral 
n -- integer 
print('subtracting (0j from input, adding {1} to output'.format(integer, numeral)) 


因为 用 于 调试 的 print() 声明 ， 输 出 会 如 下 : 


>>> import romani 

>>> romani.to roman(1424) 

subtracting 1000 from input, adding M to output 
subtracting 400 from input, adding CD to output 
subtracting 10 from input, adding X to output 
subtracting 10 from input, adding X to output 
subtracting 4 from input, adding IV to output 

' MCDXXIV ' 


iXfÉ, to roman) 至 少 在 手工 检查 下 是 工作 正常 的 。 但 它 会 通过 你 编写 的 测试 用 例 么 ? 


youQlocalhost:-/diveintopython3/examples$ python3 romantesti.py -v 
test to roman known values ( main ..KnownValues) 





Ran 1 test in 0.016s 


OK 


1. E 9? ! to roman() ERZSG8 31 T "known values" 测试 用 例 。 该 测试 用 例 并 不 复 末 ， 但 是 它 
的 确 使 该 方法 按 着 输入 值 的 变化 而 执行 ， 其 中 的 输入 值 包括 : 每 一 个 单字 符 罗 马 数字 、 
最 大 值 数字 ( 3999 ) 、 最 长 字符 串 数字 ( 3888 ) 。 通 过 这 些 ， 你 就 可 以 有 理由 对 “该 方 
法 接收 任何 正常 的 输入 值 都 工作 正常 "充满 信心 了 。 


“正常 "输入 ?" 嗯 。 那 “非法 "输入 呢 ? 


"FR IER Ie ms IC" 


Python 方式 的 停止 并 点 火 实 际 是 引发 一 个 例外 。 


仅仅 在 “正常 " 值 时 证 明 方法 通过 的 测试 是 不 够 的 ;你 同 祥 需要 测试 当 输 入 “非法 " 值 时 方法 失败 。 
但 并 不 是 说 要 枚 举 所 有 的 失败 类 型 ， 而 是 说 必要 在 你 预期 的 范围 内 失败 。 


>>> import romani 

>>> romani.to roman(4000) 
' MMMM' 

>>> romani.to roman(5000) 
' MMMMM ' 


' MMMMMMMMM ' 


这 明显 不 是 你 所 期 望 的 -一 那 也 不 是 一 个 合法 的 罗马 数字 ! 事实 上 ， 这 些 输入 值 都 超过 了 
允许 的 范围 ， 但 该 画 数 却 返回 了 假 值 。 展 展 返 回 的 错误 值 是 很 糟糕 的 ， 因 为 如 果 一 个 程 
序 要 挂 掉 的 话 ， 迅 速 且 引 人 注 目地 挂 掉 会 好 很 多 。 正 如 访 语 "停止 然后 着 火 "。Python 方 
式 的 停止 并 点 火 实 际 是 引发 一 个 例外 。 


那 问题 是 : 我 该 如 何 表达 这 些 内 容 为 可 测试 需求 呢 ? 下面 就 是 一 个 开始 : 
当 输 入 值 大 于 3999 Hj, to roman() 图 数 应 该 抛 出 一 个 outofRangeError 异常 。 


具体 测试 代码 如 下 : 
''to roman should fail with large :Input ' 


1， 如 前 一 个 测 斌 用例， 创建 一 个 继承 于 unittest.Testcase 的 类 。 你 可 以 在 每 个 类 中 实现 
多 个 测试 〈 正 如 你 在 本 节 中 将 会 看 到 的 一 样 ) ， 但 是 我 却 选 择 了 创建 一 个 新 类 ， 因 为 该 
测试 与 上 一 个 有 点 不 同 。 这 样 ， 我 们 可 以 把 正常 输入 的 测试 跟 非法 输入 的 测试 分 别 放 入 
不 同 的 两 个 类 中 。 

2， 如 前 一 个 测试 用 例 ， 测 试 本 身 是 类 一 个 方法 ， 并 且 该 方法 以 test 开头 命名 。 

. Uunittest.TestCase 类 提供 e assertRaises 方法 ， 该 方法 需要 以 下 参数 : 你 期 望 的 异 
常 、 你 要 测试 的 方法 及 传人 给 方法 的 参数 。 (如 果 被 测试 的 方法 需要 多 个 参数 的 话 ， 则 
把 所 有 参数 依次 传 入 assertRaises , assertRaises 会 正确 地 把 参数 传递 给 被 测 方法 
的 。) 


请 关注 代码 的 最 后 一 行 。 这 里 并 不 需要 直接 调用 — ， 同 时 也 不 需要 手动 检查 它 抛 
出 的 异常 类 型 (通过 一 个 try...except 块 来 包装 ) ， 这 些 assertRaises 方法 都 给 我 们 
完成 了 。 你 要 做 的 所 有 事情 emenn igit per 常 类 型 ( 
roman2.0utofRangeError ) 、 被 测 方法 ( to roman() ) 以 及 方法 的 参数 
( 4000 ) o assertRaises 方法 负责 责 调 用 to roman() 和 检查 方法 抛 出 


roman2.0utOfRangeError 的 异常 Mo 


另外 ， 注 意 你 是 把 to roman() 方法 作为 参数 传递 ;你 没有 调用 被 测 方法 ， 也 不 是 把 被 测 方法 
作为 一 个 字符 串 名 字 传 递 进去 。 我 是 否 在 之 前 提 到 过 Python 中 万 物 此 对 象 有 多 么 轻便 ? 


那么 ， 当 你 执行 该 含有 新 测试 的 测试 套件 时 ， 结 果 如 下 : 


youQlocalhost:-/diveintopython3/examples$ python3 romantest2.py -v 
test to roman known values ( main ..KnownValues) 

to roman should give known result with known input ... ok 
test too large ( main .ToRomanBadInput) 





Traceback (most recent call last): 
File "romantest2.py", line 78, in test too large 
self.assertRaises(roman2.0utOfRangeError, roman2.to roman, 4000) 


Ran 2 tests in 0.000s 


FAILED (errors=1) 


1， 测 试 本 应 该 是 失败 的 〈 因 为 并 没有 任何 代码 使 它 通过 ) ， 但 是 它 没有 真正 的 “失败 "， 而 是 
出 现 了 "错误 "。 这 里 有 些微 妙 但 是 重要 的 区 别 。 单 元 测试 事实 上 有 三 种 返回 值 : 通过 、 
失败 以 及 错误 。“ 通 过 ”， 但 当然 就 是 说 测试 成 功 了 一 -被 测 代 码 符合 你 的 预期 。“ 失 败 * 就 是 
就 如 之 前 的 测试 用 例 一 样 〈 直 到 你 编写 代码 邻 它 通过 ) 一 执行 了 被 测试 的 代码 但 返回 值 
并 不 是 所 期 望 的 。 "错误 "就 是 被 测试 的 代码 甚至 没有 正确 执行 。 

2. 为 什么 代码 没有 正确 执行 呢 ? 回溯 说 明了 一 切 。 你 正在 测试 的 模块 没有 叫 
outofRangeError 的 异常 。 回 忆 一 下 ， 该 异常 是 你 传递 给 assertRaises() 方法 的 ， 
你 期 望 当 传递 给 被 测试 方法 一 个 超大 值 时 可 以 抛 出 该 异常 。 但 是 ， 该 异常 并 不 存在 ， 

此 —— c eu 事实 上 测试 代码 并 没有 机 会 测试 to roman() n 
因为 它 还 没有 到 


为 了 解决 该 问题 ， 你 需要 在 roman2.py 中 定义 outofRangeError o 


1. 异常 也 是 类 。“ 越 界 " 错 误 是 值 错误 的 一 类 一 -参数 值 超出 了 可 接受 的 范围 。 所 以 ， 该 异常 
继承 了 内 建 的 valueError 异常 类 。 这 并 不 是 严格 的 要 求 ( 它 同样 也 可 以 继承 于 基 类 
Exception ) ， 只 要 它 正确 就 行 了 。 

2. 事实 上 ， 异 常 类 可 以 不 做 任何 事情 ， 但 是 至 少 添加 一 行 代 码 使 其 成 为 一 个 类 。 pass 的 
真正 意思 是 什么 都 不 做 ， 但 是 它 是 一 行 Python 代 码 ， 所 以 可 以 使 其 成 为 类 。 


再 次 执行 该 测试 套件 。 


youQülocalhost:-/diveintopython3/examples$ python3 romantest2.py -v 
test to roman known values ( main .KnownValues) 

to roman should give known result with known input ... ok 
test too large ( main .ToRomanBadInput) 





Traceback (most recent call last): 
File "romantest2.py", line 78, in test too large 
self.assertRaises(roman2.0utOfRangeError, roman2.to roman, 4000) 


Ran 2 tests in 0.016s 


FAILED (failures-1) 


1. 新 的 测试 仍然 没有 通过 ， 但 是 它 并 没有 返回 错误 而 是 失败 。 相 反 ， 测 试 失败 了 。 这 就 是 
进步 | 它 意味 着 这 回 assertRaises() 方法 的 调用 是 成 功 的 ， 同 时 ， 单 元 测试 框架 事实 上 
也 测试 了 to roman() KŻ 

2. 当然 to roman() 方法 没有 引发 你 所 定义 的 outofRangeError 异常 ， 因 为 你 并 没有 让 它 
这 人 么 做 。 这 真是 个 好 消息 ! 因为 它 意 味 着 这 是 个 合格 的 测试 案例 一 一 在 编写 代码 使 之 通 
过 之 前 它 将 会 以 失败 为 结果 。 


现在 可 以 编写 代码 使 其 通过 了 。 


def to_roman(n): 
'''convert integer to Roman numeral''' 
if n » 3999: 


result - '' 
for numeral, integer in roman numeral map: 
while n »- integer: 
result += numeral 
n -- integer 
return result 


1. 非常 直观 : 如 果 给 定 的 输入 (n) 大 于 3999 ， 引 发 一 个 outofRangeError 例外 。 本 单元 
测试 并 不 检测 那些 与 例外 相伴 的 人 类 可 读 的 字符 串 ， 但 你 可 以 编写 另 一 个 测试 来 检查 它 
(但 请 注意 用 户 的 语言 或 环境 导致 的 不 同 国际 化 问题 ) 。 


这 样 能 让 测试 通过 吗 ? 让 我 们 来 寻找 答案 。 


youQlocalhost:-/diveintopython3/examples$ python3 romantest2.py -v 
test to roman known values ( main  .KnownValues) 

to roman should give known result with known input ... ok 
test too large ( main .ToRomanBadInput) 





Ran 2 tests in 0.000s 


OK 


1. A * V 两 个 测试 都 通过 了 。 因 为 你 是 在 测试 与 编码 之 间 来 回 反 复 开 发 的 ， 所 以 你 可 以 肯 
定 使 得 其 中 一 个 测试 从 “失败 "转变 为 “通过 "的 原因 就 是 你 刚才 新 添 的 两 行 代 码 。 虽 然 这 种 
信心 来 得 并 不 简单 ， 但 是 这 种 代价 会 在 你 代码 的 生命 周期 中 得 到 回报 。 


More Halting, More Fire 


与 测试 超大 和 值 一 样 ， 也 必须 测试 超 小 值 。 正 如 我 们 在 功能 需求 中 提 到 的 那样 ， 罗 马 数字 无 法 
表达 0 或 负数 。 


>>> Import roman2 
>>> roman2.to roman(0) 


>>> roman2.to roman(-1) 


显然 ， 这 不 是 好 的 结果 。 让 我 们 为 这 文 些 条 件 逐 条 添加 测 IRo 


class ToRomanBadInput(unittest.TestCase): 
def test_too_large(self): 
'''to roman should fail with large input''' 


def test zero(self): 
'''to roman should fail with © input''' 


def test negative(self): 
'''to roman should fail with negative input''' 


1. test too large() PARLARA 3 又 一 样 。 我 把 它 包 含 进 来 是 为 了 说 明 新 代码 的 位 置 
2. 这 里 是 新 的 测试 方法 : test zero() o Al test too large() 一 样 ， 它 调用 了 在 n 
unittest.TestCase 中 定义 的 assertRaises() 方法 ， 并 且 以 参数 值 0 传人 给 

to roman() ， 最 后 检查 它 抛 出 相应 的 异常 * OutOfRangeError o 


3. test negative() 也 几乎 类 似 ， 除 了 它 给 to roman() WAZA -1 。 如 果 新 的 测试 中 
有 有 任何 一 个 抛 出 了 异常 OutOfRangeError (sk ER T 3A ES GR [BE T KEJA, 或 者 由 


于 它 抛 出 了 其 他 类 型 的 异常 )， 那 么 测试 就 被 视 为 失败 。 


检查 测试 是 否 失败 : 


you@localhost:~/diveintopython3/examples$ python3 romantest3.py -v 
test to roman known values ( main  .KnownValues) 

to roman should give known result with known input ... ok 

test negative ( main .ToRomanBadInput) 

to roman should fail with negative input ... FAIL 

test too large ( main .ToRomanBadInput) 

to roman should fail with large input ... ok 

test zero (. main .ToRomanBadInput) 

to roman should fail with © input ... FAIL 








Traceback (most recent call last): 
File "romantest3.py", line 86, in test negative 
self.assertRaises(roman3.OutOfRangeError, roman3.to roman, -1) 
AssertionError: OutOfRangeError not raised by to roman 


Traceback (most recent call last): 
File "romantest3.py", line 82, in test zero 
self.assertRaises(roman3.OutOfRangeError, roman3.to roman, 0) 
AssertionError: OutOfRangeError not raised by to roman 


Ran 4 tests in 0.000s 


FAILED (failures-2) 


AT ! 两 个 测试 都 如 期 地 失败 了 。 接 着 转 人 被 测试 的 代码 并 且 思考 如 何 才能 使 得 测试 通 


过 。 


def to roman(n): 
'''convert integer to Roman numeral''' 


result - '' 
for numeral, integer in roman numeral map: 
while n »- integer: 
result += numeral 
n -- integer 
return result 


1. 这 是 Python 优雅 的 快捷 方法 : 一 次 性 的 多 比较 。 它 等 价 于 
if not ((0 &lt; n) and (n &lt; 4000)) ， 但 前 者 更 适合 阅读 。 这 一 行 代码 应 该 捕获 那些 
超大 的 、 负 值 的 或 者 为 0 的 输入 。 

2. 当 你 改变 条 件 的 时 候 ， 要 确保 同步 更 新 那些 提示 错误 信息 的 可 读 字 符 串 。 unittest 框架 
并 不 关心 这 些 ， 但 是 如 果 你 的 代码 抛 出 描述 不 正确 的 异常 信息 的 话 会 使 得 手工 调试 代码 
变 得 困难 。 


我 本 应 该 给 你 展示 完整 的 一 系列 与 本 章节 不 相关 的 例子 来 说 明 一 次 性 多 比较 的 快捷 方式 是 有 
效 的 ， 但 是 我 籽 公 仅 运 行 本 测试 用 例 来 证 明 它 的 有 效 性 。 


youQlocalhost:-/diveintopython3/examples$ python3 romantest3.py -v 
test to roman known values ( main ..KnownValues) 

to roman should give known result with known input ... ok 

test negative ( main .ToRomanBadInput) 

to roman should fail with negative input ... ok 

test too large ( main .ToRomanBadInput) 

to roman should fail with large input ... ok 

test zero ( main .ToRomanBadInput) 

to roman should fail with 0 input ... ok 








Ran 4 tests in 0.016s 


OK 


、 = 
还 有 一 件 事情 .……. 
还 有 一 个 把 阿拉 伯 数 字 转 换 成 罗马 数字 的 功能 性 需求 : 处 理 非 整 型 数字 。 


>>> Import roman3 


1. 9E, TERT. 
2. "E, BERI FT RIDUSEA AAMER RA, (BiU T ERAS. 


测试 非 整 数 并 不 困难 。 首 先 ， 定 义 一 个 NotIntegerError 例外 。 


# froman4 .py 
class OutOfRangeError(ValueError): pass 
«mark»class NotlIntegerError(ValueError): pass«/mark» 


然后 ， 编 写 一 个 检查 NotIntegerError 例外 的 案例 。 


class ToRomanBadInput(unittest.TestCase): 


def test non integer(self): 
'''to roman should fail with non-integer input''' 
«mark»self.assertRaises(roman4.NotIntegerError, roman4.to roman, 0.5)«/mark» 


然后 ， 检 查 该 测试 是 否 可 以 正确 地 失败 。 


youQülocalhost:-/diveintopython3/examples$ python3 romantest4.py -v 
test to roman known values ( main  .KnownValues) 

to roman should give known result with known input ... ok 
test negative ( main .ToRomanBadInput) 

to roman should fail with negative input ... ok 
test non integer ( main .ToRomanBadInput) 

to roman should fail with non-integer input ... FAIL 
test too large ( main .ToRomanBadInput) 

to roman should fail with large input ... ok 

test zero (. main .ToRomanBadInput) 

to roman should fail with © input ... ok 








Traceback (most recent call last): 
File "romantest4.py", line 90, in test non integer 
self.assertRaises(roman4.NotIntegerError, roman4.to roman, 0.5) 
«mark»-AssertionError: NotIntegerError not raised by to roman«c/mark» 


Ran 5 tests in 0.000s 


FAILED (failures-1) 


编 修 代 码 ， 使 得 该 测试 可 以 通过 。 


def to roman(n): 
'''convert integer to Roman numeral''' 
if not (0 « n « 4000): 
raise OutOfRangeError('number out of range (must be 1..3999)') 


result - '' 
for numeral, integer in roman numeral map: 
while n »- integer: 
result += numeral 
n -- integer 
return result 


1， 内 建 的 isinstance() 方法 可 以 检查 一 个 变量 是 否 属于 某 一 类 型 或者， 技术 上 的 任何 派 
生 类 型 ) 。 
2， 如 果 参 数 n 不 是 int ， 则 抛 出 新 定义 的 NotIntegerError 异常 。 


最 后 ， 验 证 修改 后 的 代码 的 确 通过 测试 。 


youQlocalhost:-/diveintopython3/examples$ python3 romantest4.py -v 
test to roman known values ( main  .KnownValues) 

to roman should give known result with known input ... ok 
test negative ( main .ToRomanBadInput) 

to roman should fail with negative input ... ok 
test non integer ( main .ToRomanBadInput) 

to roman should fail with non-integer input ... ok 
test too large ( main .ToRomanBadInput) 

to roman should fail with large input ... ok 

test zero ( main .ToRomanBadInput) 

to roman should fail with © input ... ok 








Ran 5 tests in 0.000s 


OK 


to roman() 方法 通过 了 所 有 的 测试 ， 而 且 我 也 想 不 出 别 的 测 斌 了， 因此， 下 面 着 手 


from_roman( ) ng ! 


可 喜 的 对 称 性 


转换 罗马 数字 为 阿拉 伯 数 字 的 实现 难度 听 起 来 比 反 向 转换 要 困难 。 当 然 ， 这 种 想法 不 无 道 
理 。 例 如 ， 检 查 数值 是 否 比 0 大 容易 ， 而 检查 一 个 字符 串 是 否 为 有 效 的 罗马 数字 则 要 困难 些 。 
但 是 ， 我 们 已 经 构造 了 一 个 用 于 检查 罗马 数字 的 规则 表 ， 因 此 规则 表 的 工作 可 以 免 了 。 


现在 剩余 的 工作 就 是 转换 字符 串 了 。 正如 我 们 将 要 看 到 的 一 样 ， 多 气 我 们 定义 的 用 于 单个 罗 
马 数 字 映 射 至 阿拉 伯 数 字 的 良好 的 数据 结构 ， from_roman() 的 实现 本 质 上 与 to_roman() 一 
样 简单 。 


不 过 ， 测 试 先 行 ! 为 了 证 明 其 准确 性 ， 我 们 将 需要 一 个 对 "已 知 取 值 ?进行 的 测试 。 我 们 的 测试 
套件 已 经 包含 了 一 个 已 知 取 值 的 映射 表 ， 那 么 ， 我 们 就 重用 它 。 


def test from roman_known_values(self): 
'''from roman should give known result with known input''' 
for integer, numeral in self.known values: 
result = roman5.from roman(numeral) 
self.assertEqual(integer, result) 





这 里 看 到 了 仿 人 高 兴 的 对 称 性 。 to_roman() 与 from_roman() ESSE E EB, 前 者 把 整 型 数 
字 转 换 为 特殊 格式 化 的 字符 串 ， 而 后 者 则 把 特殊 格式 化 的 字符 串 转 换 为 整 型 数字 。 理 论 上 ， 
我 们 应 该 可 以 使 一 个 数字 “ 绕 一 圈 ”， 即 把 数字 传递 给 to_roman() 方法 ， 得 到 一 个 字符 串 ; 然 后 
把 该 字符 串 传 入 from roman() 方法 ， 得 到 一 个 整 型 数字 ， 并 且 跟 传 给 to_roman() 方 法 的 数字 
是 一 样 的 。 


n = from roman(to roman(n)) for all values of n 


在 本 用 例 中 , “全 有 取 值 ?是 说 从 1 到 3999 的 所 有 数值 ， 因 为 这 是 to_roman() 方法 的 有 效 输入 
范围 。 为 了 表达 这 两 个 方法 之 间 的 对 称 性 ， 我 们 可 以 设计 这 样 的 测试 用 例 ， 它 的 测试 数据 集 
是 从 1 到 3999 之 间 (包括 1 和 3999) 的 所 有 数值 ， 首先 调用 to_roman() ， 然后 调用 

from roman() ， 最 后 检查 输出 是 否 与 原始 输入 一 致 。 


class RoundtripCheck(unittest.TestCase): 
def test roundtrip(self): 
'''from roman(to roman(n))--n for alln''' 
for integer in range(1, 4000): 
numeral = roman5.to roman(integer) 
result = romanb5.from roman(numeral) 
self.assertEqual(integer, result) 


这 些 测 试 连 失败 的 机 会 都 没有 。 因 为 我 们 根本 还 没 定义 from roman() KA, BIDLEdM m 
抛 出 错误 的 结果 。 





youQlocalhost:-/diveintopython3/examples$ python3 romantest5 .py 
EJERE: 


ERROR: test from roman known values (main .KnownValues) 
from roman should give known result with known input 





Traceback (most recent call last): 
File "romantest5.py", line 78, in test from roman known values 
result = romanb5.from roman(numeral) 
AttributeError: 'module' object has no attribute 'from roman' 





ERROR: test roundtrip ( main  .RoundtripCheck) 
from roman(to roman(n))--n for all n 


Traceback (most recent call last): 
File "romantest5.py", line 103, in test roundtrip 
result = romanb5.from roman(numeral) 
AttributeError: 'module' object has no attribute 'from roman' 


Ran 7 tests in 0.019s 


FAILED (errors=2) 


— f Z2 E] E8 eA E AERE js] 


# roman5 .py 
def from roman(s): 
'''convert Roman numeral to integer''' 


〈 嘿 ， 你 注意 到 了 人 么 ?我 定义 了 一 个 除了 docstring 之 外 没有 任何 东西 的 方法 。 这 是 合法 的 
Python 代码 。 事 实 上 ， 一 些 程序 员 喜 欢 这 样 做 。 "不 要 留 空 ; 写 点 文档 ! ”) 


现在 测试 用 力 将 会 失败 。 


youQlocalhost:-/diveintopython3/examples$ python3 romantest5 .py 
EET 


FAIL: test from roman known values ( main  .KnownValues) 
from roman should give known result with known input 
Traceback (most recent call last): 
File "romantest5.py", line 79, in test from roman known values 
self.assertEqual(integer, result) 
AssertionError: 1 !- None 








FAIL: test roundtrip ( main .RoundtripCheck) 
from roman(to roman(n))--n for all n 
Traceback (most recent call last): 
File "romantest5.py", line 104, in test roundtrip 
self.assertEqual(integer, result) 
AssertionError: 1 !- None 


Ran 7 tests in 0.002s 


FAILED (failures-2) 


现在 是 时 候 编 写 from roman() KMAT. 


def from roman(s): 
"""Cconvert Roman numeral to integer""" 
result - 0 
index - 0 
for numeral, integer in roman numeral map: 


result += integer 
index *- len(numeral) 
return result 


1， 此 处 的 匹配 模式 与 to_roman() 完全 相同 。 静 万 整个 罗马 数字 数据 结构 (一 个 元 组 的 元 
组 )， 与 前 面 不 同 的 是 不 去 一 个 个 地 搜索 最 大 的 整数 ， 而 是 搜寻 “最 大 的 "罗马 数字 字符 
$o 


如 果 不 清楚 from roman() 如 何 工 作 ， 在 while 结尾 处 添加 一 个 print 语句 : 


def from roman(s): 
"""Cconvert Roman numeral to integer""" 
result - 0 
index - 0 
for numeral, integer in roman numeral map: 
while s[index:index-len(numeral)] == numeral: 
result += integer 
index *- len(numeral) 
«mark»print('found', numeral, 'of length', len(numeral), ', adding', integer)«c/mark» 


>>> Import roman5 

>>> roman5 .from_roman( 'MCMLXXII' ) 
found M of length 1, adding 1000 
found CM of length 2, adding 900 


found L of length 1, adding 50 
found X of length 1, adding 10 
found X of length 1, adding 10 
found I of length 1, adding 1 
found I of length 1, adding 1 
1972 


重新 执行 一 通 测 试 。 


youQlocalhost:-/diveintopython3/examples$ python3 romantest5 .py 


Ran 7 tests in 0.060s 


OK 


这 儿 有 两 个 倒 激动 的 消息 。 一 个 是 from_roman() 对 于 所 有 有 效 输 入 运转 正常 ， 至 少 对 于 你 

测试 的 已 知 值 是 这 样 。 第 二 个 好 消息 是 ， 完 备 性 测试 也 通过 了 。 和 与 已 知 值 测试 的 通过 一 起 来 

看 ， 你 有 理由 相信 to . roman( ) 和 from | roman( ) 对 于 所 有 有 效 输 入 值 工 作 正 常 。 (Apem 

全 相信 ， 理 论 上 存在 这 种 可 能 性 : to _roman() 存在 me 会 产生 错误 的 
罗马 数字 表示 ， and from | roman( ) 也 存在 相应 的 错 错误 ， 把 to_roman() pu UA mE AN 

数字 错误 地 转换 为 最 初 的 整数 。 取 决 于 你 的 应 用 程序 和 你 的 要 求 ， e 文 个 可 

性 ; 如 果 是 这 样 ， 编 写 更 全 面 的 测试 用 例 直 到 解决 这 个 问题 。) 


更 多 错误 输入 


现在 from roman() 对 于 有 效 输 入 能 够 正常 工作 了 ， 是 揭 开 最 后 一 个 迷 底 的 时 候 了 : 使 它 正 常 
工作 于 无 效 输入 的 情况 下 。 这 意味 着 要 找 出 一 个 方法 检查 一 个 字符 串 是 不 是 有 效 的 罗马 数 
字 。 这 比 中 验证 有 效 的 数字 输入 困难 ， 但 是 你 可 以 使 用 一 个 强大 的 工具 : 正则 表达 式 。( 如 果 
你 不 熟悉 正则 表达 式 ， 现 在 是 该 好 好 读 读 正则 表达 式 那 一 章节 的 时 候 了 。 ) 


如 你 在 个 案 研究 : 罗马 字母 s 中 所 见 到 的 ， 构 建 罗 马 数字 有 几 个 简单 的 规则 : 使 用 的 字母 m 
D, C, L, X, Vv 和 了 I 。 让 我 们 回顾 一 下 : 


。 有 时 字符 是 琶 加 组 合 的 。 I Æ 1, I Æ 2, 而 III 是 3. vi zoe (从 字面 上 理 
解 “5 和 1”), VII 是 7, 而 vi 是 8。 

e 十 位 的 字符 (TI、 x. c 和 ) 可 以 被 重复 最 多 三 次 。 对 于 4 ， 你 则 需要 利用 下 一 
个 能 够 被 5 整除 的 字符 进行 减 操 作 得 到 。 你 不 能 把 4 表示 为 IIIT ， 而 应 该 表示 为 IV 
(e 5 小 1 "& 40 则 被 写作 xv ("hb se 小 i10") 41 表示 为 XI, 42 表示 
为 XLII, 43 表示 为 XLIII, 44 表示 为 Bu (“He so d 10, WME ge 
i^ 


。 有 时 ， 字 符 串 是 .…… 加 法 的 对 立 面 。 通 过 将 某 些 字符 串 放 的 其 他 一 些 之 前 ， 可 以 从 最 终 


值 中 相 减 。 例 如 ， 对 于 9。 ， 你 需要 从 下 一 个 最 高 十 位 字符 串 中 减 去 一 个 值 : 8 是 
VIII, (B 9 Æ 1x C Lb 10 小 1”), ius vi (由 于 I 字符 不 能 重复 四 
次 ) 90 是 xc, 900 Æ Mo 

e 表示 5 的 字符 不 能 重复 。 16 总 是 表示 为 x ， 而 决 不 能 是 vv 。 100 总 是 c ， 决 不 


Ls] 
能 是 LLo 


e 罗马 数字 从 左 向 右 读 ， 因 此 字符 的 顺序 非常 重要 。 pc 是 600; cp 则 是 完全 不 同 的 数 
F (400, "Lb seo 小 100 ")。 ci 是 101; ic 其 至 不 是 合法 的 罗马 数字 (因为 你 
能 直接 从 100 A 1 ; 你 将 不 得 不 将 它 表 示 为 xcix, "Lb 100 小 16 ， 然 后 比 


o” a)’ 


因此 ， 有 用 的 测试 将 会 确保 from roman() KHAA SifERACKAIEBEBUPRHAM. " 太 多 "是 多 
少 取决 于 数字 。 


class FromRomanBadInput(unittest.TestCase): 
def test too many repeated numerals(self): 
'''from roman should fail with too many repeated numerals''' 
for s in ('MMMM', 'DD', 'CCCC', 'LL', 'XXXX', 'VV', 'IIII!): 
self.assertRaises(romane6.InvalidRomanNumeralError, roman6.from roman, s) 


另 一 有 效 测试 是 检查 某 些 未 被 重复 的 模式 。 例 如 ， ix 代表 9, 但 pax 绝 不 会 合法 。 


def test repeated pairs(self): 
'''from roman should fail with repeated pairs of numerals''' 
for s in ('CMCM', 'CDCD', 'XCXC', 'XLXL', 'IXIX', 'IVIV!): 
self.assertRaises(roman6.InvalidRomanNumeralError, roman6.from roman, s) 


第 三 个 测试 应 当 检 测 数字 是 否 以 正确 顺序 出 现 ， 从 最 高 到 最 低位 。 例 如 ， cL 是 iso, Mm 
LC 永远 是 非法 的 ， 因 为 代表 so 的 数字 永远 不 能 在 i100 数字 之 前 出 现 。 该 测试 包括 一 个 
随机 的 可 选项 : r TE M 之 前 ，v 在 x 之 前 等 等 。 


def test malformed antecedents(self): 
'''from roman should fail with malformed antecedents''' 
for s in ('IIMXCC', 'VX', 'DCM', 'CMM', 'IXIV', 
'MCMC', 'XCX', 'IVI', 'LM', 'LD', 'LC'): 
self.assertRaises(roman6.InvalidRomanNumeralError, roman6.from roman, s) 


这 些 测试 中 的 每 个 都 依赖 于 from roman) 引发 一 个 新 的 例外 InvalidRomanNumeralError , MI 
该 例外 尚未 定义 。 


# roman6 .py 
class InvalidRomanNumeralError(ValueError): pass 


所 有 的 测试 都 应 该 是 失败 的 ， 因 为 ”from_roman() 方法 还 没有 任何 有 效 性 检查 。 (如 果 没 
失败 ， 它 们 在 测 什么 呢 ? ) 


youQlocalhost:-/diveintopython3/examples$ python3 romantest6.py 
BEES 


FAIL: test malformed antecedents ( main .FromRomanBadInput) 
from roman should fail with malformed antecedents 
Traceback (most recent call last): 
File "romantest6.py", line 113, in test malformed antecedents 
self.assertRaises(roman6.InvalidRomanNumeralError, roman6.from roman, s) 
AssertionError: InvalidRomanNumeralError not raised by from roman 


FAIL: test repeated pairs ( main .FromRomanBadInput) 
from roman should fail with repeated pairs of numerals 
Traceback (most recent call last): 
File "romantest6.py", line 107, in test repeated pairs 
self.assertRaises(roman6.InvalidRomanNumeralError, roman6.from roman, s) 
AssertionError: InvalidRomanNumeralError not raised by from roman 


FAIL: test too many repeated numerals ( main  .FromRomanBadInput) 
from roman should fail with too many repeated numerals 


Traceback (most recent call last): 
File "romantest6.py", line 102, in test too many repeated numerals 
self.assertRaises(romane6.InvalidRomanNumeralError, roman6.from roman, s) 
AssertionError: InvalidRomanNumeralError not raised by from roman 


Ran 10 tests in 0.058s 


FAILED (failures-3) 


好 1 现在 ， 我 们 要 做 的 所 有 事情 就 是 添加 正则 表达 式 到 from romano 中 以 测试 有 效 的 罗马 数 
字 。 


roman numeral pattern = 
^ 
M{0, 3} 
(CM|CD|D?C{0,3}) 


re.compile(''' 
4 beginning of string 
# thousands - 0 to 3 Ms 
# hundreds - 900 (CM), 400 (CD), 0-300 (0 to 3 Cs), 
# or 500-800 (D, followed by © to 3 Cs) 
(XC|XL|L?X{0, 3) ) # tens - 90 (XC), 40 (XL), 0-30 (0 to 3 Xs), 
# or 50-80 (L, followed by © to 3 Xs) 
# ones - 9 (IX), 4 (IV), 0-3 (0 to 3 Is), 
# or 5-8 (V, followed by 0 to 3 Is) 
# end of string 


(IX|IV|V?I{0,3}) 


$ 
''', re.VERBOSE) 


def from roman(s): 
'''convert Roman numeral to integer''' 
«mark»if not roman numeral pattern.search(s): 
raise InvalidRomanNumeralError('Invalid Roman numeral: (0j'.format(s))«/mark» 


result - 0 
index - 0 
for numeral, integer in roman numeral map: 
while s[index : index + len(numeral)] -- numeral: 


result += integer 
index += len(numeral) 
return result 


youQlocalhost:-/diveintopython3/examples$ python3 romantest7.py 


Ran 10 tests in 0.066s 


OK 


Chapter 10 重 构 


" After one has played a vast quantity of notes and more notes, it is simplicity that 
emerges as the crowning reward of art. " — Frédéric Chopin 


VK AN 


就 算是 竭尽 了 全 力 编写 全 面 的 单元 测试 ， 还 是 会 遇 到 错误 。 我 所 说 的 “错误 "是 什么 意思 ? 错误 
是 尚未 写 到 的 测试 实例 。 


>>> import roman7 


0 
1， 这 就 是 错误 。 和 其 它 无 效 罗 马 数字 的 一 系列 字符 一 样 ， 空 字符 串 将 引发 
InvalidRomanNumeralError 例外 。 
在 重 现 该 错误 后 ， 应 该 在 修复 前 写 出 一 个 导致 该 失败 情形 的 测试 实例 ， 这 样 才 能 描述 该 错 
误 。 


class FromRomanBadInput(unittest.TestCase): 


def testBlank(self): 
'''from roman should fail with blank string''' 


1. 这 段 代 码 非常 简单 。 通 过 传人 一 个 空 字 符 串 调用 from roman() ， 并 确保 其 引发 一 个 
InvalidRomanNumeralError 例外 。 难 的 是 发 现 错误 ; 找到 了 该 错误 之 后 对 它 进 行 测 试 是 


件 轻 松 的 工作 。 
由 于 代码 有 错误 ， 且 有 用 于 测试 该 错误 的 测试 实例 ， 该 测试 实例 将 会 导致 失败 : 


youQlocalhost:-/diveintopython3/examples$ python3 romantest8.py -v 
from roman should fail with blank string ... FAIL 

from roman should fail with malformed antecedents ... ok 

from roman should fail with repeated pairs of numerals ... ok 
from roman should fail with too many repeated numerals ... ok 
from roman should give known result with known input ... ok 
to roman should give known result with known input ... ok 
from roman(to roman(n))--n for all n ... ok 

to roman should fail with negative input ... ok 

to roman should fail with non-integer input ... ok 

to roman should fail with large input ... ok 

to roman should fail with 0 input ... ok 


Traceback (most recent call last): 
File "romantest8.py", line 117, in test blank 
self.assertRaises(roman8.InvalidRomanNumeralError, roman8.from roman, '') 
«mark»-AssertionError: InvalidRomanNumeralError not raised by from roman«/mark» 


Ran 11 tests in 0.1741s 


FAILED (failures-1) 


现在 可 以 修复 该 错误 了 。 


def from roman(s): 
'''convert Roman numeral to integer''' 


raise InvalidRomanNumeralError('Input can not be blank') 
if not re.search(romanNumeralPattern, s): 


result - 0 
index - 0 
for numeral, integer in romanNumeralMap: 
while s[index:index-len(numeral)] == numeral: 
result += integer 
index *- len(numeral) 
return result 


1. 只 需 两 行 代码 : 一 行 明 确 地 对 空 字符 串 进行 检查 ， 另 一 行为 raise 语句 。 

2. 在 本 书 中 还 尚未 提 到 该 内 容 ， 因 此 现在 让 我 们 讲 讲 字符 串 格 式 化 最 后 一 点 内 容 。 从 
Python 3.1 起 ， 在 格式 化 标示 符 中 使 用 位 置 素 引 时 可 以 忽略 数字 。 也 就 是 说 ， 无 需 使 用 
格式 化 标示 符 c0) 来 指向 format() 方法 的 第 一 个 参数 ， 只 需 简 单 地 使 用 {} 而 
Python 将 会 填 入 正确 的 位 置 索 引 。 该 规则 适用 于 任何 数量 的 参数 ; 第 一 个 0 代表 
{6} ， 第 二 个 {} 代表 {1} ， 以 此 类 推 。 


youQlocalhost:-/diveintopython3/examples$ python3 romantest8.py -v 


from roman should fail with malformed antecedents ... ok 

from roman should fail with repeated pairs of numerals ... ok 
from roman should fail with too many repeated numerals ... ok 
from roman should give known result with known input ... ok 
to roman should give known result with known input ... ok 
from roman(to roman(n))--n for all n ... ok 

to roman should fail with negative input ... ok 

to roman should fail with non-integer input ... ok 

to roman should fail with large input ... ok 

to roman should fail with © input ... ok 


Ran 11 tests in 0.156s 


1， 现 在 空 字符 串 测试 实例 通过 了 测试 ， 也 就 是 说 错误 被 修正 了 。 
2， 所 有 其 它 测试 实例 仍然 可 以 通过 ， 说 明 该 错误 修正 没有 破坏 其 它 部 分 。 代 码 编写 结束 。 


用 此 方式 编写 代码 将 使 得 错误 修正 变 得 更 困难 。 简 单 的 错误 ( 像 这 个 ) 需要 简单 的 测试 实 
例 ; 复杂 的 错误 将 会 需要 复杂 的 测试 实例 。 在 以 测试 为 中 心 的 环境 中 ， 由 于 必须 在 代码 中 精 
确 地 描述 错误 (编写 测试 实例 ) ， 然 后 修正 错误 本 身 ， 看 起 来 好 像 修正 错误 需要 更 多 的 时 
间 。 而 如 果 测 试 实例 无 法 正确 地 通过 ， 则 又 需要 找 出 到 底 是 修正 方案 有 错误 ， 还 数 测试 实例 
本 身 就 有 错误 。 然 而 从 长 远 看 ， 这 种 在 测试 代码 和 经 测试 代码 之 间 的 来 回 折 腾 是 值得 的 ， 因 
为 这 样 才 更 有 可 能 在 第 一 时 间 修 正 错误 。 同 时 ， 由 于 可 以 对 新 代码 轻松 地 重新 运行 所 有 测试 
实例 ， 在 修正 新 代码 时 破坏 旧 代 码 的 机 会 更 低 。 今 天 的 单元 测试 就 是 明天 的 回 注 测 试 。 


控制 需求 变化 


为 了 获取 准确 的 需求 ， 尽 管 已 经 竭力 将 客 户 “ 钉 ?在原 地 ， 并 经 历 了 反复 剪 切 、 粘 贴 的 痛苦 ， 但 
需求 仍然 会 变化 。 大 多 数 客户 在 看 到 产品 之 前 不 知道 自己 想 要 什么 ， 而 且 就 算 知 道 ， 他 们 也 
不 擅长 清晰 地 表述 自己 的 想法 。 而 即便 擅长 表述 ， 他 们 在 下 一 个 版 本 中 也 会 提出 更 多 要 求 。 

因此 ， 必 须 随时 准备 好 更 新 测试 实例 以 应 对 需求 变化 。 


举 个 例子 来 说 ， 假 定 我 们 要 扩展 罗马 数字 转换 函数 的 能 力 范围 。 正 常情 况 下 ， 罗 马 数字 中 的 
任何 一 个 字符 在 同一 行 中 不 得 重复 出 现 三 次 以 上 。 但 罗马 人 却 愿 意 该 规则 有 个 例外 : 通过 一 
行 中 的 4 个 M 字符 来 代表 4000 。 进 行 该 修改 后 ， 将 会 把 可 转换 数字 的 范围 从 1..3999 拓 
HR 1..4999 。 但 首先 必须 对 测试 实例 进行 一 些 修 改 。 


class KnownValues(unittest.TestCase): 
known values = ( (1, 'I'), 


(3999, 'MMMCMXCIX'), 


(4500, 'MMMMD'), 
(4888, 'MMMMDCCCLXXXVIII'), 
(4999, 'MMMMCMXCIX') ) 


class ToRomanBadInput(unittest.TestCase): 
def test too large(self): 
'''to roman should fail with large input''' 


class FromRomanBadInput(unittest.TestCase): 
def test too many repeated numerals(self): 
'''from roman should fail with too many repeated numerals''' 


self.assertRaises(roman8.InvalidRomanNumeralError, roman8.from roman, s) 


class RoundtripCheck(unittest.TestCase): 
def test roundtrip(self): 
'''from roman(to roman(n))--n for alln''' 


numeral = roman8.to roman(integer) 
result - roman8.from roman(numeral) 
self.assertEqual(integer, result) 


1. me dE (它们 依然 是 合理 的 测试 数值 ) ， 但 必须 在 4000 范围 之 内 
(A) 增加 一 些 。 在 此 ， 我 已 经 添加 了 4000 (最 短 )、 4566 (第 二 短 )、 4888 (最 长 ) 
和 4999 (B). 


2.“ 过 大 值 输 icd 发 生 了 变化 。 该 测试 用 于 通过 传人 4000 调用 to roman() 并 


期 望 引 发 一 个 错误 ; 目前 4000-4999 是 有 效 的 值 ， 必 须 将 该 值 调整 为 5000 o 


3. za cum 该 测试 通过 传人 'MMMM' 调用 from roman() 并 预 
期 发 生 一 个 错误 ; 目前 mm 被 认定 为 有 效 的 罗马 数字 ， 必 须 将 该 条 件 修 改 为 'MMMMM， 


4 对 范围 内 的 每 个 数字 进行 完整 循环 测试 ， 从 1 到 999 。 由 于 范围 已 经 进行 了 拓展 ， 
for 循环 同样 需要 修改 为 以 4999 为 上 限 。 


现在 ， 测 试 实例 已 经 按照 新 的 需求 进行 了 更 新 ， 但 代码 还 没有 ， 因 按照 预期 ， 某 些 测试 实例 


将 返回 失败 结果 。 


youQlocalhost:-/diveintopython3/examples$ python3 romantest9.py -v 


from roman should fail with blank string ... ok 

from roman should fail with malformed antecedents ... ok 

from roman should fail with non-string input ... ok 

from roman should fail with repeated pairs of numerals ... ok 
from roman should fail with too many repeated numerals ... ok 
to roman should fail with negative input ... ok 

to roman should fail with non-integer input ... ok 

to roman should fail with large input ... ok 

to roman should fail with © input ... ok 


Traceback (most recent call last): 
File "romantest9.py", line 82, in test from roman known values 
result - roman9.from roman(numeral) 
File "C:NhomeNdiveintopythonS3NexamplesNroman9.py", line 60, in from roman 
raise InvalidRomanNumeralError('Invalid Roman numeral: (0j'.format(s)) 
«mark»roman9.InvalidRomanNumeralError: Invalid Roman numeral: MMMM</mark> 





Traceback (most recent call last): 
File "romantest9.py", line 76, in test to roman known values 
result - roman9.to roman(integer) 
File "C:NhomeNdiveintopython3NexamplesNroman9.py", line 42, in to roman 
raise OutOfRangeError('number out of range (must be 0..3999)') 
«mark»roman9.O0utOfRangeError: number out of range (must be 0..3999)«/mark» 





Traceback (most recent call last): 
File "romantest9.py", line 131, in testSanity 
numeral - roman9.to roman(integer) 
File "C:NhomeNdiveintopython3NexamplesNroman9.py", line 42, in to roman 
raise OutOfRangeError('number out of range (must be 0..3999)') 
«mark»roman9.O0utOfRangeError: number out of range (must be 0..3999)«/mark» 


Ran 12 tests in 0.1741s 


FAILED (errors=3) 


SF 'MMMM! , from roman() 已 知 值 测试 将 会 失败 ， 因 为 ”from_roman() TRE ER 


2. —EH3&2| 4000, to roman() 已 知 值 测试 将 会 失败 ， 因 为 to_roman() 仍 将 其 视 为 超 范 


3， 而 往返 (译注 : 指 在 普通 数字 和 罗马 数字 之 间 来 回转 换 ) 检查 遇 到 4000 时 也 会 失败 ， 
因为 to_roman() 仍 认 为 其 超 范 围 。 


现在 ， 我 们 有 了 一 些 由 新 需求 导致 失败 的 测试 实例 ， 可 以 考虑 修正 代码 让 它 与 新 测试 实例 一 
致 起 来 。 〈 刚 开始 编写 单元 测试 的 时 候 ， 被 测试 代码 绝 不 会 在 测试 实例 之 前 "出现 确 实 让 人 感 
En na ee 做 的 事情 ， 一 旦 与 测试 实例 相符 ， 

码 工作 就 可 以 结束 了 。 习惯 单元 测试 后 ， 您 可 能 会 对 自己 便 在 编程 时 不 进行 测试 感到 很 
奇怪 。) 


roman numeral pattern = re.compile(''' 
^ # beginning of string 


hundreds - 900 (CM), 400 (CD), 0-300 (0 to 3 Cs), 
or 500-800 (D, followed by 0 to 3 Cs) 
tens - 90 (XC), 40 (XL), 0-30 (0 to 3 Xs), 
or 50-80 (L, followed by 0 to 3 Xs) 
ones - 9 (IX), 4 (IV), 0-3 (0 to 3 Is), 
or 5-8 (V, followed by 0 to 3 Is) 
end of string 


(CM|CD|D?C(0, 3) ) 
(XC|XL|L?X10, 3) ) 


(IX|IV|V?1(0, 3}) 


Yk dk dk dk dk dtoGt 


$ 
''', re.VERBOSE) 


def to roman(n): 
'''convert integer to Roman numeral''' 


raise OutOfRangeError('number out of range (must be 1..4999)') 
if not isinstance(n, int): 
raise NotIntegerError('non-integers can not be converted') 


result - '' 
for numeral, integer in roman numeral map: 
while n »- integer: 
result += numeral 
n -- integer 
return result 


def from roman(s): 


1. 根本 无 需 对 from_roman() 函数 进行 任何 修改 。 唯一 需要 修改 的 是 
roman numeral pattern 。 仔 细 观 察 下 ， 将 会 发 现 我 已 经 在 正则 表达 式 的 第 一 部 分 中 将 
M 字符 的 数量 从 3 优化 为 4 。 该 修改 将 允许 等 价 于 4999 而 不 是 3999 的 罗马 数 
字 。 实 际 的 from roman() 图 数 完全 是 通用 的 ; 它 只 查找 重复 的 罗马 数字 字符 并 将 它们 加 
起 来 ， 而 不 关心 它们 重复 了 多 少 次 。 之 前 无 法 处 理 mm 的 唯一 原因 是 我 们 通过 正则 
表达 式 匹 配 明 确 地 阻止 了 它 这 么 做 。 

2. to_roman() 图 数 只 需 在 范围 检查 中 进行 一 个 小 改动 。 将 之 前 检查 o &lt; n &1t; 4000 
的 地 方 现在 修改 为 检查 0 &lt; n &1t; sooo 。 同 时 修改 引发 的 错误 信息 ， 以 体现 新 的 
可 接受 范围 ( 1..4999 取代 1..3999 ) 。 无 需 对 函数 剩 下 部 分 进行 任何 修改 ; 它 已 经 能 够 
应 对 新 的 实例 。 ( 它 将 对 找到 的 每 个 千 位 增加 wo; 如 果 给 定 4000 ， 它 将 给 出 

'MMMM' o 之 前 它 不 这 么 做 的 唯一 原因 是 我 们 通过 范围 检查 明确 地 阻止 了 它 。) 


所 需 做 的 就 是 这 两 处 小 修改 ， 但 你 可 能 会 有 点 怀疑 。 嗨 ， 别 光 听 我 说， 你 自己 看 看 吧 。 


youQlocalhost:-/diveintopython3/examples$ python3 romantest9.py -v 
from roman should fail with blank string ... ok 


from roman should fail with malformed antecedents ... ok 

from roman should fail with non-string input ... ok 

from roman should fail with repeated pairs of numerals ... ok 
from roman should fail with too many repeated numerals ... ok 
from roman should give known result with known input ... ok 
to roman should give known result with known input ... ok 
from roman(to roman(n))--n for all n ... ok 

to roman should fail with negative input ... ok 

to roman should fail with non-integer input ... ok 

to roman should fail with large input ... ok 

to roman should fail with © input ... ok 


Ran 12 tests in 0.203s 


1. 所 有 测试 实例 均 通 过 了 。 代 码 编写 结 


全 面 单 元 测试 的 意思 是 : 无 需 依赖 某 个 程序 员 来 说 “相信 我 吧 。” 


zB MJ 


关于 全 面 单元 测试 ， 最 美妙 的 事情 不 是 在 所 有 的 测试 实例 通过 后 的 那 份 心情 ， 也 不 是 别人 抱 
怨 你 破坏 了 代码 ， 而 你 通过 实践 证 明 自己 没有 时 的 快感 。 单 元 测试 最 美妙 之 处 在 于 它 给 了 你 
大 刀 阔 斧 进 行 重 构 的 自由 。 


重 构 是 修改 可 运作 代码 ， 使 其 表现 更 佳 的 过 程 。 通 常 , “更 佳 " 指 的 是 "更 快 ”， 但 它 也 可 能 指 的 
是 “占用 更 少 内 存 “^、" 占 用 更 少 磁盘 空间 "或 者 "更 加 简洁 "。 对 于 你 的 环境 、 你 的 项 目 来 说 ， 无 
论 重 构 意 味 着 什么 ， 它 对 程序 的 长 期 健康 都 至 关 重要 。 


本 例 中 ，“ 更 佳 * 的 意思 有 既 包 括 “ 更 快 " 也 包括 “更 易于 维 折 ” 具体 而 言 ， 因 为 用 于 验证 罗马 数字 
的 正则 表达 式 生 深 见 长 ， 该 from roman() 豆 数 比 我 所 希望 的 更 慢 ， 也 更 加 复杂 。 现 在 ， 你 可 
能 会 想 , “当然 ， 正 则 表达 式 就 又 臭 又 长 的 ， 难 道 我 有 其 它 办 法 验证 任意 字符 串 是 否 为 罗马 数 
2" 


答案 是 : 只 针对 5000 个 数 进 行 转换 ; 为 什么 不 知 建 立 一 个 查询 表 呢 ? 意识 到 根本 不 需要 使 
用 正则 表达 式 之 后 ， 这 个 主意 甚至 变 得 更 加 理想 了 。 在 建立 将 整数 转换 为 罗马 数字 的 查询 表 
的 同时 ， 还 可 以 建立 将 罗马 数字 转换 为 整数 的 逆向 查询 表 。 在 需要 检查 任意 字符 串 是 否 是 有 
效 罗 马 数字 的 时 候 ， 你 将 收集 到 所 有 有 效 的 罗马 数字 。 "验证 "工作 简化 为 一 个 简单 的 字典 查 
询 。 


最 棒 的 是 ， 你 已 经 有 了 一 整套 单元 测试 。 可 以 修改 模块 中 一 半 以 上 的 代码 ， 而 单元 测试 将 会 
保持 不 变 。 这 意味 着 可 以 向 你 和 其 他 人 证 明 : 新 代码 运作 和 最 初 的 一 样 好 。 


class 


OutOfRangeError(ValueError): pass 


class NotlIntegerError(ValueError): pass 
class InvalidRomanNumeralError(ValueError): pass 
roman numeral map = (('M', 41000), 
('CM', 900), 
('D', 500), 
('CD', 400), 
('c', 100), 
('XC', 90), 
(USD. 
('XL', 40), 
CXP 19); 
('IX', 9), 
CV SN 
(IVA A 
RE) 
to roman table - [ None ] 
from roman table = {} 
def to roman(n): 
'''convert integer to Roman numeral''' 
if not (0 « n « 5000): 
raise OutOfRangeError('number out of range (must be 1..4999)') 
if int(n) != n: 


raise NotIntegerError('non-integers can not be converted') 
return to roman table[n] 
def from roman(s): 
'''convert Roman numeral to integer''' 
if not isinstance(s, str): 
raise InvalidRomanNumeralError('Input must be a string!) 
if not s: 
raise InvalidRomanNumeralError('Input can not be blank') 
if s not in from roman table: 
raise InvalidRomanNumeralError('Invalid Roman numeral: [(0j'.format(s)) 
return from roman table[s] 
def build lookup tables(): 
def to roman(n): 
result - '' 
for numeral, integer in roman numeral map: 
if n »- integer: 
result - numeral 
n -- integer 
break 
if n» 80: 
result += 
return result 


to roman table[n] 


for integer in range(1, 5000): 


roman numeral = to roman(integer) 
to roman table.append(roman numeral) 
from roman table[roman numeral] - integer 


build lookup tables() 


让 我 们 打 断 一 下 ， 进 行 一 些 剖 析 工 作 。 可 以 说 ， 最 重要 的 是 最 后 一 行 : 


build lookup tables() 


可 以 注意 到 这 是 一 次 函数 调用 ， 但 没 语句 包 襄 住 它 。 这 不 是 

if “name == ， main " 语 块 ， he 它 将 会 被 调用 。 (重要 的 是 必须 明白 : 模块 
将 只 被 导 和 一次， 随后 被 缓存 了 。 如 果 导 入 一 个 已 导入 模块 ， 将 不 会 导致 任何 事情 发 生 。 
此 这 段 代码 将 只 在 第 一 此 导入 时 运行 。) 





那么 ， 该 build lookup tables() 图 数 究 况 进行 了 哪些 操作 呢 ? 很 高 关 你 问 这 题 。 


to roman table = [ None ] 
from roman table = {} 


def build lookup tables(): 


result - '' 
for numeral, integer in roman numeral map: 
if n »- integer: 
result - numeral 
n -- integer 
break 
if n > 0: 
result += to_roman_table[n] 
return result 


for integer in range(1, 5000): 


from_roman_table[roman_numeral] = integer 


1. 这 是 一 段 聪 明 的 程序 代码 .……….. 也 许 过 于 聪明 了 。 上 面 定义 了 to _roman() 函数 ; 它 在 查 
询 表 中 查找 值 并 返回 z 吉 果 。 而 build . lookup tables() ERA ERE SLT to roman() KAA 
于 实际 操作 〈 像 添加 查询 表 之 前 的 例子 一 样 ) 。 在 build lookup tables() 图 数 内 部 ， 对 
to roman() 的 调用 将 会 针对 该 重 定义 的 版 本 。 一 旦 build lookup tables() 图 数 退 出 
重 定义 的 版 本 将 会 消失 一 它 的 定义 只 在 build lookup tables() 图 数 的 作用 域内 生效 。 

2 小生 代码 科 调用 各 定义 的 KUNISISER A, 该 吏 数 实际 计算 罗马 数字 。 

3. 一 县 获得 结果 (从重 定义 的 to_roman() 画 数 ) ， 可 将 整数 及 其 对 应 的 罗马 数字 添加 到 
两 个 查询 表 中 。 


查询 表 建 好 后 ， 剩 下 的 代码 既 容 易 又 快捷 。 


def to roman(n): 
'''convert integer to Roman numeral''' 
if not (0 « n « 5000): 
raise OutOfRangeError('number out of range (must be 1..4999)') 
if int(n) !- n: 
raise NotIntegerError('non-integers can not be converted') 


def from roman(s): 
'''convert Roman numeral to integer''' 
if not isinstance(s, str): 
raise InvalidRomanNumeralError('Input must be a string!) 
if not s: 
raise InvalidRomanNumeralError('Input can not be blank') 
if s not in from roman table: 
raise InvalidRomanNumeralError('Invalid Roman numeral: (0j'.format(s)) 


1. 像 前 面 那样 进行 同样 的 边界 检查 之 后 ， to roman() KHAR SEE 5 ix e fjtik[is 


的 值 。 
同样 ， from_roman() 图 数 也 缩水 为 一 些 边界 检查 和 一 行 代码 。 不 再 有 正则 表达 式 。 不 下 
有 循环 。O(1) 转换 为 或 转换 到 罗马 数字 。 


N 


但 这 段 代 码 可 以 运作 吗 ?为 什么 可 以 ， 是 的 它 可 以 。 而 且 我 可 以 证 明 。 


youQülocalhost:-/diveintopython3/examples$ python3 romantest10.py -v 


from roman should fail with blank string ... ok 

from roman should fail with malformed antecedents ... ok 

from roman should fail with non-string input ... ok 

from roman should fail with repeated pairs of numerals ... ok 
from roman should fail with too many repeated numerals ... ok 
from roman should give known result with known input ... ok 
to roman should give known result with known input ... ok 
from roman(to roman(n))--n for all n ... ok 

to roman should fail with negative input ... ok 

to roman should fail with non-integer input ... ok 

to roman should fail with large input ... ok 

to roman should fail with © input ... ok 

OK 


1. 它 不 仅 能 够 回答 你 的 问题 ， 还 运行 得 非常 快 ! 好 象 速 度 提 升 了 10 倍 。 当 然 ， 这 种 比较 并 
不 公平 ， 因 为 此 版 本 在 导入 时 耗 时 更 长 (在 建造 查询 表 时 ) 。 但 由 于 只 进行 一 次 导入 ， 
启动 的 成 本 可 以 由 对 to roman() 和 from roman() 玉 数 的 所 有 调用 捧 薄 。 由 于 该 测试 进 
行 几 千 次 函数 调用 (来 回 单独 测试 上 万 次 ) ， 节 省 出 来 的 效率 成 本 得 以 迅速 提升 ! 


这 个 故事 的 离 意 是 什么 ? 


。 简单 是 一 种 美德 。 
。 特别 在 涉及 到 正则 表达 式 的 时 候 。 
。 单元 测试 全 你 在 进行 大 规模 重 构 时 充满 自信 。 


摘要 


单元 测试 是 一 个 威力 强大 的 概念 ， 如 果 正 确实 施 ， 不 但 可 以 降低 维护 成 本 ， 还 可 以 提高 长 期 
项 目的 灵活 性 。 但 同时 还 必须 明白 : 单元 测试 既 不 是 灵丹妙药 ， 也 不 是 解决 问题 的 魔术 ， 更 
不 是 银 弹 。 编 写 良 好 的 测试 实例 非常 艰难 ， 确 保 它们 时 刻 保持 最 新 必须 成 为 一 项 纪律 (特别 
在 客户 要 求 关 键 错误 修正 时 ) 。 单 元 测试 不 是 功能 测试 、 集 成 测试 或 用 户 承受 能 力 测试 等 其 
它 测试 的 替代 品 。 但 它 是 可 行 的 、 行 之 有 效 的 ， 见 识 过 其 功用 后 ， 你 将 对 之 前 鲁 没 有 用 它 而 
感到 奇怪 。 


这 几 章 覆盖 的 内 容 很 多 ， 很 大 一 部 分 都 不 是 Python 所 特有 的 。 许 多 语言 都 有 单元 测试 框架 ， 
但 所 有 框架 都 要 求 掌 握 同 一 基本 概念 : 

e 设计 测试 实例 是 件 具 体 、 自 动 且 独 立 的 工作 。 

e 在 编写 被 测试 代码 之 前 编写 测试 实例 。 


编写 用 于 检查 好 输入 并 验证 正确 结果 的 测试 

编写 用 于 测试 " 坏 "输入 并 做 出 正确 失败 响应 的 测试 。 

编写 并 更 新 测试 实例 以 反映 新 的 需求 

窒 不 留情 地 重 构 以 提升 性 能 、 可 扩展 性 、 可 读 性 、 可 维护 性 及 任何 缺乏 的 特性 。 


Chapter 11 文件 


"Anine mile walk is no joke, especially in the rain. " — Harry Kemelman, The Nine Mile 
Walk 


概要 


在 没有 安装 任何 一 个 应 用 程序 之 前 ， 我 的 笔记 本 上 Windows 系 统 有 38,493 个 文件 。 安 装 
Python 3 后 ， 大 约 增 加 了 3,000 个 文件 。 文 件 是 每 一 个 主流 操作 系统 的 主要 存储 模型 ; 这 种 观 
念 如 此 根深 蒂 固 以 至 于 难以 想 出 一 种 蔡 代 物 。 打 个 比方 ， 你 的 电脑 实际 上 就 是 泡 在 文件 里 
f. 


读 取 文 本 文件 
在 读 取 文件 之 前 ， 你 需要 先 打开 它 。 在 Python 里 打开 一 个 文件 很 简单 : 


a file = open('examples/chinese.txt', encoding-'utf-8') 


Python -CAERA open() ， 它 使 用 一 个 文件 名 作为 其 参数 。 在 以 上 代码 中 ， 文 件 名 是 
'examples/chinese.txt' o 关于 这 个 文件 名 ， 有 五 件 值得 一 讲 的 事情 : 


1， 它 不 仅 是 一 个 文件 的 名 字 ; 实际 上 ， 它 是 文件 路 径 和 文件 名 的 组 合 ; 一 般 来 说 ， 文 件 打 
开 画 数 应 该 有 两 个 参数 一 路 径 和 文件 名 — 但 是 函数 open() 只 使 用 一 个 参数 。 在 Python 
里 ， 当 你 使 用 “filename,” 作 为 参数 的 时 候 ， 你 可 以 将 部 分 或 者 全 部 的 路 径 也 包括 进去 。 

2. 在 这 个 例子 中 ， 目 录 路 径 中 使 用 的 是 斜 杠 (forward slash)， 但 是 我 并 没有 说 明 我 正在 使 用 
的 操作 系统 。Windows 使 用 反 斜 杠 来 表示 子 目 录 ， 但 是 Mac OS X 和 Linux 使 用 斜 枉 。 但 
是 ， 在 Python 中 ， 斜 杠 永远 都 是 正确 的 ， 即 使 是 在 Windows 环 境 下 。 

3. 不 使 用 和 斜 杠 或 者 反 斜 杠 的 路 径 被 称 作 相 对 路 笃 (relative path)。 你 也 许 会 问 ， 相 对 于 什么 
We? 耐心 一 些 ， 伙 计 。 

4. “filename,” 参 数 是 一 个 字符 串 。 所 有 现代 的 操作 系统 〈 甚 至 Windows ! ) 使 用 Unicode 编 
码 方式 来 存储 文件 名 和 目录 名 。Python 3 全 面 支持 非 ASCII 编 码 的 路 径 。 

5 文件 不 一 定 需要 在 本 地 磁盘 上 。 人 也许 你 挂 裁 了 一 个 网 络 驱 动 器 。 它 也 可 以 是 一 个 完全 虚 
拟 的 文件 系统 (an entirely virtual filesystem) 上 的 文件 。 只 要 你 的 操作 系统 认为 它 是 一 个 文 
件 ， 并 且 能 够 以 文件 的 方式 访问 ， 那 么 ，Python 就 能 打开 它 。 


但 是 对 open) 芳 数 的 调用 不 局 限于 filename 。 还 有 另外 一 个 叫做 encoding 参数 。 天 哪 ， 似 
平 非常 耳 熟 的 样子 ! 


字符 编码 抬 起 了 它 腌 膜 的 头 .… 


字 节 即 字 节 ; 字符 是 一 种 抽象 。 字 符 串 由 使 用 Unicode 编 码 的 字符 序列 构成 。 但 是 磁 瘟 上 的 文 
件 不 是 Unicode 编 码 的 字符 序列 。 文 件 是 字 节 序列 。 所 以 你 可 能 会 想 ， 如 果 从 磁盘 上 读 取 一 
个 “文本 文件 "，Python 是 怎样 把 那个 字 节 序列 转化 为 字符 序列 的 呢 ? 实际 上 ， 它 是 根据 特定 的 
字符 解码 算法 来 解释 这 些 字 节 序列 ， 然 后 返回 一 串 使 用 Unicode 编 码 的 字符 (或 者 也 称 为 字符 
串 ) 。 


# This example was created on Windows. Other platforms may 
4 behave differently, for reasons outlined below. 
# 这 个 样 例 在 Windows 平 台 上 创建 。 其 他 平台 可 能 会 有 不 同 的 表现 ， 理 由 描述 在 下 边 
>>> file = open('examples/chinese.txt') 
>>> a string = file.read() 
Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
File "C:NPython31MlibNencodingsNcp1252.py", line 23, in decode 
return codecs.charmap decode(input,self.errors,decoding table)[0] 


UnicodeDecodeError: 'charmap' codec can't decode byte Ox8f in position 28: character maps 
>>> 


s — —]j 





默认 的 编码 方式 是 平台 相关 的 。 


刚才 发 生 了 什么 ?由 于 你 没有 指定 字符 编码 的 方式 ， 所 以 Python 被 迫使 用 默认 的 编码 。 那 么 
默认 的 编码 方式 是 什么 呢 ? 如 果 你 仔细 看 了 跟踪 信息 (traceback)， 错 误 出 现在 cp1252.py ， 
这 意味 着 Python 此 时 正在 使 用 CP-1252 作 为 默认 的 编码 方式 。 (在 运行 微软 视窗 操作 系统 的 
机 器 上 ，CP-1252 是 一 种 常用 的 编码 方式 。) CP-1252 的 字符 集 不 支持 这 个 文件 上 的 字符 纺 
码 ， 所 以 它 以 这 个 可 恶 的 unicodepecodeError 错误 读 取 失败 。 


但 是 ， 还 有 更 精 糕 的 ! 因为 默认 的 编码 方式 是 平台 相关 的 (platform-dependent)， 所 以 ， 当 前 
的 代码 也 许 能 够 在 你 的 电脑 上 运行 (如 果 你 的 机 器 的 默认 编码 方式 是 UTF-8) ， 但 是 当 你 把 这 
份 代码 分 发 给 其 他 人 的 时 候 可 能 就 会 失败 〈 因 为 他 们 的 默认 编码 方式 可 能 跟 你 的 不 一 样 ， 比 

如 说 CP-1252) 。 


如 果 你 需要 获得 默认 编码 的 信息 ， 则 导入 locale 模块 ， 然 后 调 
用 locale.getpreferredencoding() o 在 我 安装 了 Windows 的 笔记 本 上 ， 它 的 返回 值 
是 'cp1252' ， 但 是 在 我 楼 上 安装 了 Linux 的 台式 机 上 边 ， 它 返回 'urre' 。 你 看 ， 即 使 在 
我 自己 家 里 我 都 不 能 保证 一 致 性 (consistency) ! 你 的 运行 结果 也 许 不 一 样 (即使 在 
Windows 平 台 上 ) ， 这 依赖 于 操作 系统 的 版 本 和 区 域 /语言 选 项 的 设置 。 这 就 是 为 什么 每 
次 打开 一 个 文件 的 时 候 指 定编 码 方式 是 如 此 重要 了 。 


流 对 象 


到 目前 为 止 ， 我 们 都 知道 Python 有 一 个 内 置 的 函数 叫做 open() o open() 画 数 返回 一 个 流 对 
象 (stream object) ， 它 拥有 一 些 用 来 获取 信息 和 操作 字符 流 的 方法 和 属性 。 


>>> a file = open('examples/chinese.txt', encoding-'utf-8') 
'examples/chinese.txt' 
'utf-8' 


'r! 


1. name 属性 反映 的 是 当 你 打开 文件 时 传递 给 open) MAPIE. BAR E 
(normalize) 成 绝对 路 径 。 


2. 同样 的 ， encoding 属性 反映 的 是 在 你 调用 open() 画 数 时 指定 的 编码 方式 。 如 果 你 在 打 


开 文 件 的 时 候 没有 指定 编码 方式 (不 好 的 开发 人 员 ! ) ， 那 么 encoding 属性 反映 的 
是 locale.getpreferredencoding() 的 返回 值 。 

mode 属性 会 告诉 你 被 打开 文件 的 访问 模式 。 你 可 以 传递 一 个 可 选 的 mode 参数 
给 open() 图 数 。 如 果 在 打开 文件 的 时 候 没有 指定 访问 模式 ，Python 默 认 设 置 模式 

为 'r' ， 意 思 是 “在 文本 模式 下 以 只 读 的 方式 打开 。" 在 这 章 的 后 面 你 会 看 到 ， 文 件 的 访问 
模式 有 各 种 用 途 ; 不 同 模式 能 够 使 你 写 入 一 个 文件 ， 追 加 到 一 个 文件 ， 或 者 以 二 进 制 模 


式 打 开 一 个 文件 (在 这 种 情况 下 ， 你 处 理 的 是 字 节 ， 不 再 是 字符 ) 。 


open() 函数 的 文档 列 出 了 所 有 可 用 的 文件 访问 模式 。 
从 文本 文件 读 取 数 据 
在 打开 文件 以 后 ， 你 可 能 想 要 从 某 处 开始 读 取 它 。 


>>> a file = open('examples/chinese.txt', encoding-'utf-8') 


'Dive Into Python 是 为 有 经 验 的 程序 员 编写 的 一 本 Python #. Nn' 


1， 只 要 成 功 打开 了 一 个 文件 〈 并 且 指 定 了 正确 的 编码 方式 ) ， 你 只 需要 调用 流 对 象 
的 read() 方法 即 可 以 读 取 它 。 返 回 的 结果 是 文件 的 一 个 字符 串 表 示 。 
2. 


也 许 你 会 感到 意外 ， 再 次 读 取 文 件 不 会 产生 一 个 异常 。Python 不 认为 到 达 了 文件 末尾 


(end-of-file) 还 继续 执行 读 取 操作 是 一 个 错误 ; 这 种 情况 下 ， 它 只 是 简单 地 返回 一 个 空 字 
TE, 


无 论 何 时 ， 打 开 文 件 时 指定 encoding 参数 。 
如 果 想 要 重新 读 取 文件 呢 ? 


# continued from the previous example 
# 接着 前 一 个 例子 


0 


'Dive Into Python' 


>>> a file.read(1) 


TE I 
AE 


20 


1. 由 于 你 依旧 在 文件 的 末尾 ， 继 续 调 用 read() 方法 只 会 返回 一 个 空 字符 串 。 
2. seek() 方法 使 定位 到 文件 中 的 特定 字 节 。 

3. read() 方法 可 以 使 用 一 个 可 选 的 参数 ， 即 所 要 读 取 的 字符 个 数 。 

4. 只 要 愿意 ， 你 其 至 可 以 一 次 读 取 一 个 字符 。 

5. 16+ 1+1=...20? 


我 们 再 来 做 一 通 。 
# continued from the previous example 


# 继续 上 一 示例 
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1， 移 动 到 第 17th 个 字 节 位 置 。 
2， 读 取 一 个 字符 。 
3， 当 前 在 第 20 个 字 节 位 置 处 。 


你 是 否 已 经 注意 到 了 ? seek() 和 teni 方法 总 是 以 字 节 的 方式 计数 ， 但 是 ， 由 于 你 是 以 文 
本 文件 的 方式 打开 的 ， read() 方法 以 字符 的 个 数 计数 。 中 文字 符 的 UTF-8 编 码 需要 多 个 字 

节 。 而 文件 里 的 英文 字符 每 一 个 只 需要 一 个 字 节 来 存储 ， 所 以 你 可 能 会 产生 这 样 的 误 

解 seek() 和 read() 方法 对 相同 的 目标 计数 。 而 实际 上 ， 只 有 对 部 分 字符 的 情况 是 这 样 

的 。 


但 是 ， 还 有 更 糟 的 ! 
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Traceback (most recent call last): 
File "<pyshell#12>", line 1, in «module» 
a file.read(1) 
File "C:NPython31MlibNcodecs.py", line 300, in decode 
(result, consumed) - self. buffer decode(data, self.errors, final) 
UnicodeDecodeError: 'utf8' codec can't decode byte 0x98 in position 0: unexpected code by 








1， 定 位 到 第 18th 个 字 节 ， 然 后 试图 读 取 一 个 字符 。 
2. 为 什么 这 里 会 失败 ? 因为 在 第 18 个 字 节 多 不 存在 字符 。 距 离 此 处 最 近 的 字符 从 第 17 个 字 
节 开 始 (长 度 为 三 个 字 节 ) 。 试 图 从 一 个 字符 的 中 间 位 置 读 取 会 导致 程序 


以 UnicodeDecodeError 错误 失败 。 


关闭 文件 


打开 文件 会 占用 系统 资源 ， 根 据 文件 的 打开 模式 不 同 ， 其 他 的 程序 也 许 不 能 够 访问 它们 。 当 
已 经 完成 了 对 文件 的 操作 后 就 立即 关闭 它们 ， 这 很 重要 。 


# continued from the previous example 
# 继续 前 面 的 例子 
>>> a file.close() 


然而 ， 这 还 不 够 (anticlimactic)。 


流 对 象 a_file 仍然 存在 ; 调用 close() 方法 并 没有 把 对 象 本 身 销毁 。 所 以 这 并 不 是 非常 有 
效 。 


# continued from the previous example 


# 接着 上 一 示例 


Traceback (most recent call last): 
File "«pyshellZ24»", line 1, in «module» 
a file.read() 
ValueError: I/O operation on closed file. 


Traceback (most recent call last): 
File "«pyshellZ25»", line 1, in «module» 
a file.seek(0) 
ValueError: I/O operation on closed file. 


Traceback (most recent call last): 
File "«pyshellZ26»", line 1, in «module» 
a file.tell() 
ValueError: I/O operation on closed file. 


True 

1. 不 能 读 取 已 经 关闭 了 的 文件 ; 那样 会 引发 一 个 IoError 异常 。 

2. 也 不 能 对 一 个 已 经 关闭 了 的 文件 执行 定位 操作 。 

3. 由 于 文件 已 经 关闭 了 ， 所 以 也 就 不 存在 所 谓 当 前 的 位 置 了 ， 所 以 teo 也 会 失败 。 
4. 也 许 你 会 有 些 意外 ， 文 件 已 经 关闭 ， 调 用 原来 流 对 象 的 close) 方法 并 没有 引发 异常 。 


其 实 那 只 是 一 个 空 操 作 (no-op) 而 已 。 
5. 已 经 关闭 了 的 流 对 象 确实 还 有 一 个 有 用 的 属性 : closed 用 来 确认 文件 是 否 已 经 被 关闭 
Tes 


E ab BUE 


try..finally 也 行 。 但 是 with 更 好 


流 对 象 有 一 个 显 式 的 close() 方法 ， 但 是 如 果 代 码 有 和 缺陷， 在 调用 close() 方法 以 前 就 崩溃 
了 呢 ?理论 上 ， 那 个 文件 会 在 相当 长 的 一 段 时 间 内 一 直 打 开 着 ， 这 是 没有 必要 地 。 当 你 在 自 
己 的 机 器 上 调试 的 时 候 ， 这 不 算 什么 大 问题 。 但 是 当 这 种 代码 被 移植 到 服务 器 上 运行 ， 也 许 
就 得 三 思 了 。 


对 于 这 种 情况 ，Python 2 有 一 种 解决 办 法 : try. .finally 块 。 这 种 方法 在 Python 3 里 仍然 有 
效 ， 也 许 你 可 以 在 其 他 人 的 代码 ， 或 者 从 比较 老 的 被 移植 到 Python 3 的 代码 中 看 到 它 。 但 是 
Python 2.5 引 入 了 一 种 更 加 简洁 的 解决 方案 ， 并 且 Python 3 将 它 作为 首选 方案 : with 语句 。 


with open('examples/chinese.txt', encoding-'utf-8') as a file: 
a file.seek(17) 
a character - a file.read(1) 
print(a character) 


这 段 代 码 调用 了 open() RŽ, 但 是 它 却 一 直 没 有 调用 a file.close() o with 语句 引出 一 个 
代码 块 ， 就 像 if 语句 或 者 for 循环 一 样 。 在 这 个 代码 块 里 ， 你 可 以 使 用 变量 a file flt 

为 open() 画 数 返回 的 流 对 象 的 引用 。 所 以 流 对 象 的 常规 方法 都 是 可 用 的 一 

seek() , read() ， 无 论 你 想 要 调用 什么 。 当 with 块 结束 时 ，Python 自 动 调 

用 a file.close() 。 


这 就 是 它 和 与 众 不 同 的 地 方 : 无 论 你 以 何 种 方式 跳出 with 块 ，Python 会 自动 关闭 那个 文件 .… 即 


使 是 因为 未 处 理 的 异常 而 "exit*。 是 的 ， 即 使 代码 中 引发 了 一 个 异常 ， 整 个 程序 突然 中 止 了 ， 
Python 也 能 够 保证 那个 文件 能 被 关闭 掉 。 





从 技术 上 说 ， with 语句 创建 了 一 个 运行 时 环境 (runtime context)。 在 这 几 个 样 例 中 ， 
流 对 象 的 行为 就 像 一 个 上 下 文 管理 器 (context manager)。Python 创 建 了 a_file ， 并 且 
告诉 它 正 进入 一 个 运行 时 环境 。 当 with 块 结束 的 时 候 ，Python 告 诉 流 对 象 它 正在 退出 这 
个 运行 时 环境 ， 然 后 流 对 象 就 会 调用 它 的 close) 方法 。 请 阅读 RB, "Bess 
在 with 块 中 使 用 的 类 "以 获取 更 多 细节 。 





with 语句 不 只 是 针对 文件 而 言 的 ; 它 是 一 个 用 来 创建 运行 时 环境 的 通用 框架 (generic 
framework)， 告 诉 对 象 它们 正在 进入 和 离开 一 个 运行 时 环境 。 如 果 该 对 象 是 流 对 象 ， 那 么 它 
就 会 做 一 些 类 似 文件 对 象 一 样 有 用 的 动作 (就 像 自动 关闭 文件 !) 。 但 是 那个 行为 是 被 流 对 
象 自身 定义 的 ， 而 不 是 在 with 语句 中 。 还 有 许多 跟 文件 无 关 的 使 用 上 下 文 管理 器 (context 
manager) 的 方法 。 在 这 章 的 后 面 可 以 看 到 ， 你 甚至 可 以 自己 创建 它们 。 


一 次 读 取 一 行 数据 


正如 你 所 想 的 ， 一 行 数据 就 是 这 样 一 输入 一 些 单词 ， 按 ENTER 键 ， 然 后 就 在 新 的 一 行 了 。 一 
行文 本 就 是 一 串 被 某 种 未 西 分 隔 的 字符 ， 到 底 是 被 什么 分 隔 的 呢 ? 好 吧 ， 这 有 些 复杂 ， 因 为 
文本 文件 可 以 使 用 几 个 不 同 的 字符 来 标记 行 末 (end of a line)。 每 种 操作 系统 都 有 自己 的 规 
4B. 3 — Ef FH[BI (carriage return)， 另 外 一 些 使 用 换行 符 (line feed)， 还 有 一 些 在 行 末 同 
时 使 用 这 两 个 字符 来 标记 。 


其 实 你 可 以 舒 口气 了 ， 因 为 Python 默认 会 自动 处 理 行 的 结束 符 。 如 果 你 告诉 它 ， "我 想 从 这 个 
文本 文件 一 次 读 取 一 行 ，"Python 自 己 会 弄 明 白 这 个 文本 文件 到 底 使 用 哪 种 方式 标记 新 行 ， 然 
后 正确 工作 。 


到 如 果 想 要 细 粒 度 地 控制 (fine-grained control) 使 用 哪 种 新 行 标记 符 ， 你 可 以 传递 一 个 可 
选 的 参数 newline 给 open() WA 3; M] open() 本 数 的 文档 以 获取 更 多 细节 。 


那么 ， 实 际 中 你 会 怎样 做 呢 ? 我 是 指 一 次 读 取 文 件 的 一 行 。 它 如 此 简单 优美 … 


line number = 0 


line number += 1 


1. 使 用 with 语句 ， 安 全 地 打开 这 个 文件 ， 然 后 让 Python 为 你 关闭 它 。 

2. 为 了 一 次 读 取 文件 的 一 行 ， 使 用 for 循环 。 是 的 ， 除 了 像 read() 这 样 显 式 的 方法 ， 流 对 
象 也 是 一 个 迭代 器 (iterator)， 它 能 在 你 每 次 请 求 一 个 值 时 分 离 出 单独 的 一 行 。 

3. 使 用 字符 串 的 format() 方法 ， 你 可 以 打印 出 行 号 和 行 自 身 。 格 式 说 明 符 {:&gt;4} BUR 
思 是 “使 用 最 多 四 个 空格 使 之 右 对 齐 ， 然 后 打印 此 参数 。 "变量 a_line 是 包括 回 车 符 等 在 
内 的 完整 的 一 行 。 字 符 串 方法 rstrip() 可 以 去 掉 尾随 的 空白 符 ， 包 括 回 车 符 。 


youQlocalhost:-/diveintopython3$ python3 examples/oneline.py 
1 Dora 
Ethan 
Wesley 
John 
Anne 
Mike 
Chris 
Sarah 
Alex 
Lizzie 


eG oo-o01 »0NhN 


youQülocalhost:-/diveintopython3$ python3 examples/oneline.py 
Traceback (most recent call last): 
File "examples/oneline.py", line 4, in &lt;module&gt; 
print('(:&gt;4) ()'.format(line number, a line.rstrip())) 
ValueError: zero length field name in format 


如 果 结 果 是 这 样 ， 也 许 你 正在 使 用 Python 3.0。 你 真 的 应 该 升级 到 Python 3.1, 


Python 3.0 支 持 字符 串 格式 化 ， 但 是 只 支持 显 式 编号 了 的 格式 说 明 符 。Python 3.1 人 允许 你 
在 格式 说 明 符 里 省 略 参数 索引 号 。 作 为 比照 ， 下 面 是 一 个 Python 3.0 兼 容 的 版 本 。 


print('[&lt;mark&gt;O0&lt;/mark&gt;:&gt;4) [&lt;mark&gt;1&lt;/mark&gt;)'.format(line 


E — y} 





写 入 文本 文件 


打开 文件 然后 开始 写 入 即 可 。 


写 入 文件 的 方式 和 从 它们 那儿 读 取 很 相似 。 首 先 打开 一 个 文件 ， 获 取 流 对 象 ， 然 后 你 调用 一 
些 方法 作用 在 流 对 象 上 来 写 入 数据 到 文件 ， 最 后 关闭 文件 。 


为 了 写 入 而 打开 一 个 文件 ， 可 以 使 用 open() 函数 ， 并 且 指 定 宇 入 模式 。 有 两 种 文件 模式 用 于 
FA: 


。“ 写 "模式 会 重 写 文件 。 传 递 mode='w' 参数 给 open() MŽ 
e “追加 "模式 会 在 文件 末尾 添加 数据 。 传 递 mode='a' 参数 给 open() MŽ 


如 果 文件 不 存在 ， 两 种 模式 下 都 会 自动 创建 新 文件 ， 所 以 就 不 需要 "如果 文件 还 不 存在 ， 创 建 
一 个 新 的 空白 文件 以 能 够 打开 它 " 这 种 琐碎 的 过 程 了 。 所 以 ， 只 需要 打开 一 个 文件 ， 然 后 开始 
写 人 即 可 。 


在 完成 写 入 后 你 应 该 马上 关闭 文件 ， 释 放 文 件 句柄 (file handle)， 并 且 保 证 数据 被 完整 地 写 入 
到 了 磁盘 。 跟 读 取 文 件 一 样 ， 可 以 调用 流 对 象 的 close() 方法 ， 或 者 你 也 可 以 使 用 with 语句 
让 Python 为 你 关闭 文件 。 我 敢 打赌 ， 你 肯定 能 猜 到 我 推荐 哪 种 方案 。 


>>> with open('test.log', encoding-'utf-8') as a file: 

em print(a file.read()) 

test succeeded 

m a file.write('and again') 

>>> with open('test.log', encoding-'utf-8') as a file: 
print(a file.read()) 


1 大胆 地 创建 新 文件 test.1og (或 者 重 写 已 经 存在 的 文件 ) ， 然 后 以 写 入 方式 打开 文件 。 
参数 mode='w' 的 意思 是 文件 以 写 入 的 模式 打开 。 是 的 ， 这 听 起 来 似乎 比较 危险 。 我 希望 
你 确定 不 再 关心 那个 文件 以 前 的 内 容 (如 果 有 的 话 ) ， 因 为 那 份 数据 已 经 没 了 。 

2. 你 可 以 通过 open) 画 数 返回 的 流 对 象 的 write() 方法 来 给 新 打开 的 文件 添加 数据 。 

当 with 块 结束 的 时 候 ，Python 自 动 关闭 文件 。 

3. 多 么 有 趣 ， 我 们 再 试 一 次 。 这 一 次 ， 使 用 with='a' 参数 来 添加 数据 到 文件 末尾 ， 而 不 是 
重 写 它 。 追 加 模式 绝 不 会 破坏 现 有 文件 的 内 容 。 

4. 原来 宇 入 的 行 ， 还 有 追加 上 去 的 第 二 行 现在 都 在 文件 test.1og 里 了 。 同 时 请 注意 ， 回 车 
符 没 有 被 包括 进去 。 你 可 以 通过 we 写 入 一 个 回 车 符 。 由 于 一 开始 没有 这 样 做 ， 所 有 写 
入 到 文件 的 数据 现在 都 在 同一 行 。 


再 次 讨论 字符 编码 


你 是 否 注意 到 当 你 在 打开 文件 用 于 写 和 人 数据 的 时 候 传递 给 open() ESSI] encoding 参数 。 
它 "非常 重要 "， 不 要 忽略 了 ! 就 如 你 在 这 章 开 头 看 到 的 ， 文 件 中 并 不 存在 字符 串 ， 它 们 由 字 节 
组 成 。 只 有 当 你 告诉 Python 使 用 何 种 编码 方式 把 字 节 流转 换 为 字符 串 ， 从 文件 读 取 “ 字 符 串 " 才 


成 为 可 能 。 相 反 地 ， 写 入 文本 到 文件 面临 同样 的 问题 。 实 际 上 你 不 能 直接 把 字符 写 入 到 文 
件 ; 字符 只 是 一 种 抽象 。 为 了 写 入 字符 到 文件 ，Python 需 要 知道 如 何 将 字符 串 转 换 为 字 节 序 
列 。 唯 一 能 保证 正确 地 执行 转换 的 方法 就 是 当 你 为 写 入 而 打开 一 个 文件 的 时 候 ， 指 

定 encoding 参数 。 


二 进 制 文件 





不 是 所 有 的 文件 都 包含 文本 内 容 。 有 一 些 还 包含 了 我 可 爱 的 狗 的 照片 。 


sR 
'examples/beauregard.jpg' 


Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
AttributeError: ' io.BufferedReader' object has no attribute 'encoding' 


1. 用 二 进 制 模式 打开 文件 很 简单 ， 但 是 很 精细 。 与 文本 模式 唯一 不 同 的 是 mode 参数 包含 一 
个 字符 'b' 。 

2. 以 二 进 制 模式 打开 文件 得 到 的 流 对 象 与 之 前 的 有 很 多 相同 的 属性 ， 包 括 mode 属性 ， 它 记 
录 了 你 调用 open) 本 数 时 指定 的 mode 参数 的 值 。 

3 二进制 文件 的 流 对 象 也 有 name 属性 ， 就 如 文本 文件 的 流 对 象 一 样 。 

4. 然 而， 确实 有 不 同 之 处 : 二 进 制 的 流 对 象 没有 encoding 属性 。 你 能 明白 其 中 的 道理 的 ， 
对 吧 ? 现在 你 读 写 的 是 字 节 ， 而 不 是 字符 串 ， 所 以 Python 不 需要 做 转换 工作 。 从 二 进 制 
文件 里 读 出 的 跟 你 所 宇 入 的 是 完全 一 样 的 ， 所 以 没有 执行 转换 的 必要 。 


我 是 否 提 到 当前 正在 读 取 字 节 ? 噢 ， 的 确 如 此 。 


# continued from the previous example 
# 继续 前 一 样 例 

>>> an image.tell() 

0 


>>> data 
b'NxffNxd8Nxff ' 


«class 'bytes'» 


3 

>>> an image.seek(0) 

0 

>>> data = an image.read() 
>>> len(data) 

3150 


1， 跟 读 取 文 本 文件 一 样 ， 你 也 可 以 从 二 进 制 文件 一 次 读 一 点 儿 。 但 是 它们 之 间 有 一 个 重大 
的 不 同 之 处 处 &#hellip; 

2，>&#hellip; 你 正在 读 取 字 节 ， 而 不 是 字符 串 。 由 于 你 以 二 进 制 模式 打开 文件 ， read() 方 
法 每 次 读 取 指 定 的 字 节 数 ， 而 非 字 符 数 。 

3. 这 就 意味 着 ， 你 传递 给 read() 方法 的 数目 和 你 从 teii() 方法 得 到 的 位 置 序号 不 会 出 现 
意料 之 外 的 不 匹配 (unexpected mismatch) 


非 文 件 来 源 的 流 对 象 
使 用 read() 方法 即 可 从 虚拟 文件 读 取 数据 。 


想象 一 下 你 正在 编写 一 个 库 (library)， 其 中 有 一 库 函 数 用 来 从 文件 读 取 数据 。 它 使 用 文件 名 作 
为 参数 ， 以 只 读 的 方式 打开 文件 ， 读 取 数 据 ， 关 闭 文件 ， 返 回 。 但 是 你 不 应 该 只 做 到 这 个 程 
度 。 你 的 API 应 该 能 够 接纳 任意 的 类 型 的 流 对 象 。 


最 简单 的 情况 ， 只 要 对 象 包含 rea) 方法 ， 这 个 方法 使 用 一 个 可 选 参数 size 并 且 返 回 值 为 
一 个 串 ， 它 就 是 是 流 对 象 。 不 使 用 size 参数 调用 read() 的 时 候 ， 这 个 方法 应 该 从 输入 源 读 
取 所 有 可 读 的 信息 然后 以 单独 的 一 个 值 返回 所 有 数据 。 当 使 用 size 参数 调用 read() 时 ， 它 
从 输入 源 读 取 并 返回 指定 量 的 数据 。 当 再 一 次 被 调用 时 ， 它 从 上 一 次 离开 的 地 方 开 始 读 取 并 
返回 下 一 个 数据 块 。 


这 听 起 来 跟 你 从 打开 一 个 真实 文件 得 到 的 流 对 象 一 样 。 不 同 之 处 在 于 你 不 再 受 限于 真实 的 文 
件 。 能 够 “ 读 取 ”的 输入 源 可 以 是 任何 东西 : 网 页 ， 内 存 中 的 字符 串 ， 其 至 是 另外 一 个 程序 的 输 
出 。 只 要 你 的 函数 使 用 的 是 流 对 象 ， 调 用 对 象 的 read() 方法 ， 你 可 以 处 理 任 何 行为 与 文件 类 
似 的 输入 源 ， 而 不 需要 为 每 种 类 型 的 输入 指定 特别 的 代码 。 


>>> a string = 'PapayaWhip is the new black.' 


'PapayaWhip is the new black.' 


0 


'PapayaWhip' 

>>> a file.tell() 
10 

>>> a file.seek(18) 
18 

>>> a file.read() 
'new black.' 


1. io 模块 定义 了 stringro 类 ， 你 可 以 使 用 它 来 把 内 存 中 的 字符 串 当 作文 件 来 处 理 。 
2. 为 了 从 字符 串 创 建 一 个 流 对 象 ， 可 以 把 想 要 作为 "文件 "使 用 的 字符 串 传 递 
给 io.stringIo() 来 创建 一 个 stringro 的 实例 。 
3， 调 用 read() 方法 " 读 取 ”整个 “文件 ”， 以 stringro 对 象 为 例 即 返回 原 字符 串 。 
4. 就 像 一 个 真实 的 文件 一 样 ， 再 次 调用 read() 方法 返回 一 个 空 串 。 


5. 通过 使 用 stringro 对 象 的 seek() 方法 ， 你 可 以 显 式 地 定位 到 字符 串 的 开头 ， 就 像 在 一 
个 真实 的 文件 中 定位 一 样 。 
6， 通 过 传递 size 参数 给 read) 方法 ， 你 也 可 以 以 数据 块 的 形式 读 取 字 符 串 。 


io.stringro 让 你 能 够 料 一 个 字符 串 作为 文本 文件 来 看 待 。 另 外 还 有 一 
个 io.Bytero 类 ， 它 允许 你 将 字 节 数组 当做 二 进 制 文件 来 处 理 。 

















义理 压缩 文件 


Python 标准 库 包含 支持 读 写 压缩 文件 的 模块 。 有 许多 种 不 同 的 压缩 方案 ; 其 中 ，gzip 和 bzip2 
是 非 Windows 操 作 系 统 下 最 流行 的 两 种 压缩 方式 。 


gzip 模块 允许 你 创建 用 来 读 写 gzip 压 缩 文 件 的 流 对 象 。 该 流 对 象 支持 read() 方法 (如果 你 
以 读 取 模 式 打开 ) 或 者 wite) 方法 〈 如 果 你 以 写 人 模式 打开 ) 。 这 就 意味 着 ， 你 可 以 使 用 
从 普通 文件 那儿 学 到 的 技术 来 直接 读 写 9zjp 压 缩 文 件 ， 而 不 需要 创建 临时 文件 来 保存 解压 缩 了 
的 数据 。 


作为 额外 的 功能 ， 它 也 支持 with 语句 ， 所 以 当 你 完成 了 对 gzip 压 缩 文件 的 操作 ，Python 可 以 
为 你 自动 关闭 它 。 


youQülocalhost:-$ python3 
>>> import gzip 
z file.write('A nine mile walk is no joke, especially in the rain.'.encode('utf-8') 
>>> exit() 
-rw-r--r-- 1 mark mark 79 2009-07-19 14:29 out.log.gz 


A nine mile walk is no joke, especially in the rain. 
Si PR ( 


1.， 你 应 该 问题 以 二 进 制 模式 打开 gzip 太 缩 文件 。 (注意 mode 参数 里 的 'b' 字符 。) 

2. 我 在 Linux 系 统 上 完成 的 这 个 例子 。 如 果 你 对 命令 行 不 熟悉 ， 这 条 命令 用 来 显示 刚才 你 在 
Python shell 创 建 的 gzip 压 缩 文件 的 “长 清单 (long listings)", 4 RHIEUSSU, 6879F F 
长 。 而 实际 上 这 个 值 比 一 开始 的 字符 串 还 要 长 ! 由 于 gzip 文 件 包括 了 一 个 固定 长 度 的 文件 
头 来 存放 一 些 关 于 文件 的 元 数据 (metadata)， 所 以 它 对 于 极 小 的 文件 来 说 效率 不 高 。 

3. gunzip 命令 (发音 : “gee-unzip”) 解压 缩 文件 然后 保存 其 内 容 到 一 个 与 原来 压缩 文件 同 
名 的 新 文件 中 ， 并 去 掉 其 .gz 扩展 名 。 

4. cat 命令 显示 文件 的 内 容 。 当 前 文件 包含 了 原来 你 从 Python shell 直 接 写 入 到 压缩 文 
件 out.log.gz 的 那个 字符 串 。 


标准 输入 、 输 出 和 错误 


Sys.stdin , sys.stdout , sys.stderr 


命令 行 高 手 已 经 对 标准 输入 ， 标 准 输 出 和 标准 错误 的 概念 相当 熟悉 了 。 这 部 分 内 容 是 对 另 一 


T 
部 分 还 不 熟悉 的 人 员 准 各 的 。 


标准 输出 和 标准 错误 (通常 缩写 为 stdout 和 stderr ) 是 被 集成 到 每 一 个 类 UNIX 操 作 系 统 中 
的 两 个 管道 (pipe)， 包 括 Mac OS X 和 Linux。 当 你 调用 print 的 时 候 ， 需 要 打印 的 内 容 即 被 
发 送 到 stdout 管道 。 当 你 的 程序 出 错 并 且 需 要 打印 跟踪 信息 (traceback) 时 ， 它 们 被 发 送 

到 stderr 管道 。 默 认 地 ， 这 两 个 管道 都 被 连接 到 你 正在 工作 的 终端 窗口 上 (terminal 
window) ; 当 你 的 程序 打印 某 些 未 西 ， 你 可 以 在 终端 上 看 到 这 些 输出 ， 当 程序 出 错 ， 你 也 可 以 
从 终端 上 看 到 这 些 错误 信息 。 在 图 形 化 的 Python shell 里 ， stdout 和 stderr 管道 默认 连接 
到 “交互 式 窗 口 (Interactive Window)" 


>>> for i in range(3): 
PapayaWhip 

PapayaWhip 

PapayaWhip 

>>> import sys 

>>> for i in range(3): 


is theis theis the 
>>> for i in range(3): 


new blacknew blacknew black 


1. 循环 调用 print() KR. RATA AÉ. 

2. stdout 被 定义 在 sys 模块 里 ， 它 是 一 个 流 对 象 (stream object)。 使 用 任意 字符 串 调 用 
其 wite) KARRAR F AH. Ex, RME print) EROR Ep EREA ; 它 在 串 
的 结尾 添加 一 个 回 车 符 ， 然 后 调用 sys.stdout.write o 

3. 最 简单 的 情况 下 ， sys.stdout 和 sys.stderr 把 他 们 的 输出 发 送 到 同一 个 位 置 : Python 
IDE (如 果 你 在 那里 执行 操作 ) ， 或 者 终端 《如果 你 从 命令 行 执 行 Python 指令 ) 。 跟 标准 
输出 一 样 ， 标 准 错误 也 不 会 自动 为 你 添加 回 车 符 。 如 果 你 需要 回 车 符 ， 你 需要 手工 宇 入 
回 车 符 到 标准 错误 。 


sys.stdout 和 sys.stderr 都 是 流 对 象 ， 但 是 他 们 都 只 支持 写 入 。 斌 图 调用 他 们 的 read() 方 


AREAS | 发 IOError 异常 。 


>>> import sys 

>>> Sys.stdout.read() 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

IOError: not readable 


标准 输出 重 定 向 


sys.stdout 和 sys.stderr 都 是 流 对 象 ， 尽 管 他 们 只 支持 写 入 。 但 是 他 们 是 变量 而 不 是 常量 。 
这 就 意味 着 你 可 以 给 它们 赋 上 新 值 一 任意 其 他 流 对 象 一 来 重 定向 他 们 的 输出 。 


import sys 


class RedirectStdoutTo: 
def | init (self, out new): 
self.out new - out new 


def _ enter (self): 
self.out old - sys.stdout 
sys.stdout - self.out new 


def | exit (self, *args): 
sys.stdout - self.out old 


print('A') 

with open('out.log', mode-'w', encoding-'utf-8') as a file, RedirectStdoutTo(a file): 
print('B') 

print('C') 


仿 证 一 下 : 


youQlocalhost:-/diveintopython3/examples$ python3 stdout.py 
A 


C 


youQlocalhost:-/diveintopython3/examples$ cat out.log 
B 


你 是 否 遇 到 了 以 下 错误 ? 


youQlocalhost:-/diveintopython3/examples$ python3 stdout.py 
File "stdout.py", line 15 
with open('out.log', mode-'w', encoding-'utf-8') as a file, RedirectStdoutTo(a f 
^ 


SyntaxError: invalid syntax 


um-—-——————————————————————————— 





如 果 是 这 样 ， 你 可 能 正在 使 用 Python 3.0。 应 该 升级 到 Python 3.1. 


Python 3.0 支 持 with 语句 ， 但 是 每 个 语句 只 能 使 用 一 个 上 下 文 管理 器 。Python 3.1 人 允许 
你 在 一 条 with 语句 中 链接 多 个 上 下 文件 管理 器 。 


我 们 先 来 处 理 最 后 那 一 部 分 。 


print('A') 

with open('out.log', mode-'w', encoding-'utf-8') as a file, RedirectStdoutTo(a file): 
print('B') 

print('C') 


这 是 一 个 复杂 的 with 语句 。 让 我 改写 它 使 之 更 有 可 读 性 。 


with open('out.log', mode-'w', encoding-'utf-8') as a file: 
with RedirectStdoutTo(a file): 
print('B') 


正如 改动 后 的 代码 所 展示 的 ， 实 际 上 你 使 用 了 两 个 with 语句 ， 其 中 一 个 找 套 在 另外 一 个 的 作 
用 域 (scope) 里 。“ 外 层 的 ”with 语句 你 应 该 已 经 熟悉 了 : 它 打开 一 个 使 用 UTF-8 编 码 的 叫 

做 out.1og 的 文本 文件 用 来 写 信 ， 然 后 把 返回 的 流 对 象 赋 给 一 个 叫做 a file 的 变量 。 但 是 ， 
在 此 处 ， 它 并 不 是 唯一 显得 古怪 的 事情 。 


with RedirectStdoutTo(a_ file): 


as 子 句 (clause) 到 哪里 去 了 ?其实 with 语句 并 不 一 定 需要 as 子 句 。 就 像 你 调用 一 个 画 数 然 
后 忽略 其 返回 值 一 样 ， 你 也 可 以 不 把 with 语句 的 上 下 文 环境 赋 给 一 个 变量 。 在 这 种 情况 下 ， 
我 们 只 关心 RedirectstdoutTo 上 下 文 环境 的 边际 效应 (side effect), ` 


` 那 么 ， 这 些 边 际 效应 都 是 些 什么 呢 ?我 们 来 看 一 看 RedirectStdoutTo 类 的 内 部 结构 。 这 是 一 个 用 户 自 定 义 的 [上 下 3 
和 _exit_() 就 可 以 变 成 上 下 文 管理 器 。 


"class RedirectStdoutTo: 
self.out new - out new 


self.out old - sys.stdout 
Sys.stdout - self.out new 


Sys.stdout = self.out old 


1. 在 实例 被 创建 后 — init 0 方法 马上 被 调用 。 它 使 用 一 个 参数 ， 即 在 上 下 文 环境 的 生命 
周期 内 你 想 用 做 标准 输出 的 流 对 象 。 这 个 方法 只 是 把 该 流 对 象 保 存在 一 个 实例 变量 里 
(instance variable) 以 使 其 他 方法 在 后 边 能 够 使 用 到 它 。 

2. | enter () 方法 是 一 个 特殊 的 类 方法 (special class method) ; 在 进入 一 个 上 下 文 环境 时 
Python 会 调用 它 (Bl, f£ with 语句 的 开始 处 ) 。 该 方法 把 当前 sys.stdout 的 值 保存 
在 self.out old 内 ， 然 后 通过 把 self.out new 赋 给 sys.stdout 来 重 定向 标准 输出 。 

3. | exit () 是 另外 一 个 特殊 类 方法 ; 当 离 开 一 个 上 下 文 环境 时 (HD, f£ with 语句 的 末 
尾 ) Python 会 调用 它 。 这 个 方法 通过 把 保存 的 self.out old PAIRA sys.stdout 来 恢复 
标准 输出 到 原来 的 状态 。 


放 到 一 起 : 


1， 这 条 代码 会 输出 到 IDE 的 “交互 式 窗口 (Interactive Window)" (或 者 终端 ， 如 果 你 从 命令 行 
运行 这 段 脚本 ) 。 

2. 这 条 with 语句 使 用 逗号 分 隔 的 上 下 文 环 境 列表 。 这 个 列表 就 像 一 系列 相互 谋 套 
的 with 块 。 先 列 出 的 是 “外 层 ” 的 块 ; 后 列 出 的 是 “内 层 " 的 块 。 第 一 个 上 下 文 环 境 打 开 一 
个 文件 ; 第 二 个 重 定向 sys.stdout 到 由 第 一 个 上 下 环境 创建 的 流 对 象 。 

3， 由 于 这 个 print() KAE with 语句 创建 的 上 下 文 环 境 里 执行 ， 所 以 它 不 会 输出 到 屏幕 ; 
它 会 写 人 到 文件 out .log o 

4. with 语句 块 结束 了 。Python 告 诉 每 一 个 上 下 文 管理 器 完成 他 们 应 该 在 离开 上 下 文 环 境 时 
应 该 做 的 事 。 这 些 上 下 文 环境 形成 一 个 后 进 先 出 的 栈 。 当 离开 一 个 上 下 文 环境 的 时 候 ， 
第 二 个 上 下 文 环境 将 sys.stdout 的 值 恢复 到 它 的 原来 状态 ， 然 后 第 一 个 上 下 文 环境 关闭 


那个 叫做 out .1og 的 文件 。 由 于 标准 输出 已 经 被 恢复 到 原来 的 状态 ， 再 次 调 
用 print) 本 数 会 马上 输出 到 屏幕 上 。 


重 定向 标准 错误 的 原理 跟 这 个 完全 一 样 ， 将 sys.stdout 蔡 换 为 sys.stderr 即 可 。 


进一步 阅读 


e i5 xt Python.org 上 的 教程 
e io 模块 

e 流 对 象 

e 上 下 文 管理 器 类 型 

e sys.stdout and sys.stderr 


e FUSE 来 自 维基 百科 


Chapter 12 XML 


" In the archonship of Aristaechmus, Draco enacted his ordinances. " — Aristotle 


概述 


这 本 书 的 大 部 分 章节 都 是 以 样 例 代码 为 中 心 的 。 但 是 XML 这 章 不 是 ; 它 以 数据 为 中 心 。 最 常 
见 的 XML 应 用 为 "聚合 订阅 (syndication feeds)”， 它 用 来 展示 博客 ， 论 坛 或 者 其 他 会 经 常 更 新 
的 网 站 的 最 新 内 容 。 大 多 数 的 博客 软件 都 会 在 新 文章 ， 新 的 讨论 区 ， 或 者 新 博文 发 布 的 时 候 
自动 生成 和 更 新 feed。 我 们 可 以 通过 “订阅 (subscribe)"feed 来 关注 它们 ， 还 可 以 使 用 专门 
的 “feed 聚合 工具 (feed aggregator)”， 比 如 Google Reader, 


以 下 的 XML 数据 是 我 们 这 一 章 中 要 用 到 的 。 它 是 一 个 feed 一 更 确切 地 说 是 一 个 Atom 聚 合 feed 


<?xml version='1.0' encoding-'utf-8'?» 
«feed xmlns='http://www.w3.0rg/2005/Atom' xml:lang='en'> 
<title>dive into mark</title> 
<subtitle>currently between addictions</subtitle> 
<id>tag:diveintomark.org,2001-07-29:/</id> 
<updated>2009-03-27T21:56:07Z</updated> 
<link rel='alternate' type='text/html' href='http://diveintomark.org/'/> 
<link rel='self' type='application/atom+xml' href='http://diveintomark.org/feed/'/> 
<entry> 
<author> 
<name>Mark</name> 
<uri>http://diveintomark.org/</uri> 
</author> 
<title>Dive into history, 2009 edition</title> 
<link rel='alternate' type='text/html' 
href='http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edition'/> 
«id»-tag:diveintomark.org,2009-03-27:/archives/20090327172042«/id» 
«updated22009-03-27T21:56:07Z«/updated- 
«published»2009-03-27T17:20:42Z«/published» 
«category scheme-'http://diveintomark.org' term-'diveintopython'/» 
«category scheme-'http://diveintomark.org' term-'docbook'/» 
«category scheme-'http://diveintomark.org' term-'html'/» 
«summary type-'html'2Putting an entire chapter on one page sounds 
bloated, but consider this &amp;mdash; my longest chapter so far 
would be 75 printed pages, and it loads in under 5 seconds&amp;hellip; 
On dialup.«/summary» 
«/entry» 
«entry» 
«author» 
«name»Mark«/name- 
«uri»http://diveintomark.org/«/uri» 
«/author» 
«title»Accessibility is a harsh mistress«/title» 
«link rel-'alternate' type-'text/html' 
hrefz'http://diveintomark.org/archives/2009/03/21/accessibility-is-a-harsh-mistress 
«id»tag:diveintomark.org,2009-03-21:/archives/20090321200928«/id» 
«updated22009-03-22T01:05:37Z«/updated- 
«published»2009-03-21T20:09:28Z«/published» 
«category scheme-'http://diveintomark.org' term-z'accessibility'/» 
«summary type-'html'»The accessibility orthodoxy does not permit people to 
question the value of features that are rarely useful and rarely used.«/summary» 
«/entry» 
«entry» 
«author» 
«name»Mark«/name- 
«/author» 
«title»A gentle introduction to video encoding, part 1: container formats«/title» 
«link rel-'alternate' type-'text/html' 
hrefz'http://diveintomark.org/archives/2008/12/18/give-part-1-container-formats'/- 
«id»-tag:diveintomark.org,2008-12-18:/archives/20081218155422«/id» 
«updated22009-01-11T19:39:22Z«/updated- 
«published22008-12-18T15:54:22Z«/published- 
«category scheme-'http://diveintomark.org' term-'asf'/» 
«category scheme-'http://diveintomark.org' term-'avi'/» 
«category scheme-'http://diveintomark.org' term-'encoding'/-» 
«category scheme-'http://diveintomark.org' term-'flv'/» 
«category scheme-'http://diveintomark.org' term-'GIVE'/» 
«category scheme-'http://diveintomark.org' term-'mp4'/» 
«category scheme-'http://diveintomark.org' term-'ogg'/» 
«category scheme-'http://diveintomark.org' term-'video'/» 
«summary type-'html'»These notes will eventually become part of a 
tech talk on video encoding.«/summary» 
«/entry» 
«/feed» 


a m 








54) 5: XML 3& FX, 


如 果 你 已 经 了 解 XML， 可 以 跳 过 这 一 部 分 。 


XML 是 一 种 描述 层次 结构 化 数据 的 通用 方法 。XML 文 档 包 含 由 起 始 和 结束 标签 (fag) 分 隔 的 一 
个 或 多 个 元 素 (element)。 以 下 也 是 一 个 完整 的 (虽然 空洞 )XML 文 件 : 


1. 这 是 foo 元 素 的 起 始 标签 。 
2， 这 是 foo 元 素 对 应 的 结束 标签 。 就 如 写作 、 数 学 或 者 代码 中 需要 平衡 括号 一 样 ， 每 一 个 
起 始 标签 必须 有 对 应 的 结束 标签 来 闭合 (E) 。 


元 素 可 以 艇 套 到 任意 层次 。 位 于 foo 中 的 元 素 bar 可 以 被 称 作 其 子 元 素 。 


«foo» 
«mark»«bar»«/bar»«/mark» 
«/foo» 


XML 文档 中 的 第 一 个 元 素 叫 做 根 元 素 froot elememb。 并 且 每 份 XML 文档 只 能 有 一 个 根 元 素 。 
以 下 不 是 一 个 XML 文档 ， 因 为 它 存在 两 个 " 根 元 素 ”。 


«foo»«/foo» 
«bar»«/bar» 


元 素 可 以 有 其 属性 (attribute)， 它 们 是 一 些 名 字 - 值 (name-value) 对 。 属 性 由 空格 分 隔 列 举 在 元 
素 的 起 始 标 签 中 。 一 个 元 素 中 属性 名 不 能 重复 。 属 性 值 必须 用 引号 包围 起 来 。 单 引号 、 双 引 
号 都 是 可 以 。 


</foo> 
1. foo 元 素 有 一 个 叫做 lang 的 属性 。 lang 的 值 为 en 


2. bar 元 素 则 有 两 个 属性 ， 分 别 为 id 和 lang 。 其 中 lang 属性 的 值 为 fr 。 它 不 会 
与 foo 的 那个 属性 产生 冲突 。 每 个 元 素 都 其 独立 的 属性 集 。 


如 果 元 素 有 多 个 属性 ， 书 写 的 顺序 并 不 重要 。 元 素 的 属性 是 一 个 无 序 的 键 - 值 对 集 ， 跟 Python 
中 的 列表 对 象 一 样 。 另 外 ， 元 素 中 属性 的 个 数 是 没有 限制 的 。 


元 素 可 以 有 其 文本 内 容 (text content) 


«foo lang-'en'» 
«bar langz'fr'»«mark-PapayaWhip«/mark»«/bar» 
«/foo» 


如 果 某 一 元 素 既 没有 文本 内 容 ， 也 没有 子 元 素 ， 它 也 叫做 空 元 素 。 


«foo»«/foo» 


表达 空 元 素 有 一 种 简洁 的 方法 。 通 过 在 起 始 标签 的 尾部 添加 / 字符 ， 我 们 可 以 省 略 结束 标 
签 。 上 一 个 例子 中 的 XML 文档 可 以 写成 这 样 : 


«foo«mark»/«/mark»» 


就 像 Python 画 数 可 以 在 不 同 的 模块 (modules) 中 声明 一 样 ， 也 可 以 在 不 同 的 名 字 空 间 
(namespace) 中 声明 XML 元 素 。XML 文 档 的 名 字 空 间 通常 看 起 来 像 URL。 我 们 可 以 通过 声 
BB xmlns 来 定义 默认 名 字 空间 。 名 字 空 间 声 明 跟 元 素 属 性 看 起 来 很 相似 ， 但 是 它们 的 作用 是 
不 一 样 的 。 


</feed> 


1. feed 元 素 处 在 名 字 空 间 http://www.w3.0rg/2005/Atom FH, 
2. title 元 素 也 是 。 名 字 空 间 声 明 不 仅 会 作用 于 当前 声明 它 的 元 素 ， 还 会 影响 到 该 元 素 的 
所 有 子 元 素 。 


也 可 以 通 
过 xmlns: prefix ` 声 明 来 定义 一 个 名 字 空 间 并 取 其 名 为 _prefix_。 然 后 该 名 字 空 间 中 的 每 个 元 素 都 必须 显 式 地 使 用 这 - 
prefix") 来 声明 。 


«/atom: feed» 
1. feed 元 素 属 于 名 字 空 间 http://www.w3.0rg/2005/Atom o 


2. title 元 素 也 在 那个 名 字 空 间 。 


对 于 XML 解析 器 而 言 ， 以 上 两 个 XML 文档 是 一 样 的 。 名 字 空 间 + 元 素 名 = XML 标识 。 前 组 只 
是 用 来 引用 名 字 空 间 的 ， 所 以 对 于 解析 器 来 说 ， 这 些 前 级 名 ( atom: ) 其 实 无 关 紧 要 的 。 名 字 空 
间 相 同 ， 元 素 名 相同 ， 属 性 (或 者 没有 属性 ) 相同 ， 每 个 元 素 的 文本 内 容 相同 ， 则 XML 文 档 
相同 。 


最 后 ， 在 根 元 素 之 前 ， 字 符 编 码 信息 可 以 出 现在 XML 文档 的 第 一 行 。 (这 里 存在 一 个 两 难 的 
局 面 (catch-22)， 直 观 上 来 说 ， 解 析 XML 文 档 需 要 这 些 编码 信息 ， 而 这 些 信息 又 存在 于 XML 文 
档 中 ， 如 果 你 对 XML 如 何 解决 此 问题 有 兴趣 ， 请 参阅 XML 规范 中 F 章节 ) 


<?xml version-'1.0' <mark>encoding='utf-8'</mark>?> 


现在 我 们 已 经 知道 足够 多 的 XML 知识 ， 可 以 开始 探险 了 ! 


Atom Feed 的 结构 


想像 一 下 网 络 上 的 博客 ， 或 者 互联 网 上 任何 需要 频繁 更 新 的 网 站 ， 上 比如 CNN.com。 该 站 点 有 
一 个 标题 (“CNN.com”)， 一 个 子 标题 (“Breaking News, U.S., World, Weather, Entertainment & 
Video News”)， 包 含 上 次 更 新 的 日 期 (“updated 12:43 p.m. EDT, Sat May 16, 2009”)， 还 有 在 
不 同时 期 发 布 的 文章 的 列表 。 每 一 篇 文章 也 有 自己 的 标题 ， 第 一 次 发 布 的 日 期 (如 果 便 经 修 
订 过 或 者 改正 过 某 个 输入 错误 ， 或 许 也 有 一 个 上 次 更 新 的 日 期 ) ， 并 且 每 篇 文章 有 自己 唯一 
的 URL。 


Atom 聚 合格 式 被 设计 成 可 以 包含 所 有 这 些 信息 的 标准 格式 。 我 的 博客 无 论 在 设计 ， 主 题 还 是 
读者 上 都 与 CNN.com 大 不 相同 ， 但 是 它们 的 基本 结构 是 相同 的 。CNN.com 能 做 的 事情 ， 我 的 
博客 也 能 做 .…. 


每 一 个 Atom 订 阅 都 共享 着 一 个 根 元 素 : 即 在 名 字 空 间 http://www,w3.org/2005/Atom 中 的 元 
素 feed o 


1. http: //www.w3.0rg/2005/Atom 表示 名 字 空 间 Atom。 
2. 每 一 个 元 素 都 可 以 包含 xml:1ang 属性 ， 它 用 来 声明 该 元 素 及 其 子 元 素 使 用 的 语言 。 在 当 
前 样 例 中 ， xml:lang 在 根 元 素 中 被 声明 了 一 次 ， 也 就 意味 着 ， 整 个 feed 都 使 用 英文 。 


描述 Atom feed 自 身 的 一 些 信息 在 根 元 素 feed 的 子 元 素 中 被 声明 。 


«feed xmlns-'http://www.w3.0rg/2005/Atom' xml:lang-'en'» 


1， 该 行 表示 这 个 feed 的 标题 为 dive into mark o 

2. 这 一 行 表 示 子 标题 为 currently between addictions o 

3. 每 一 个 feed 都 要 有 一 个 全 局 唯一 标识 符 (globally unique identifier)。 想 要 知道 如 何 创 建 
它 ， 请 查阅 RFC 4151。 

4. 表示 当前 feed 上 次 更 新 的 时 间 为 March 27, 2009, at 21:56 GMT, 通常 来 说 ， 它 与 最 近 一 
篇 文章 最 后 一 次 被 修改 的 时 间 是 一 样 的 。 

5， 事 情 开始 变 得 有 趣 了 ... link 元 素 没有 文本 内 容 ， 但 是 它 有 三 个 属 
性 : rel, type 和 href 。 rel 元 素 的 值 能 告诉 我 们 链接 的 类 型 ; rel='alternate' 表 
示 这 个 链接 指向 当前 feed 的 另外 一 个 版 本 。 type='text/html' 表示 链接 的 目标 是 一 个 
HTML 页 面 。 然 后 目标 地 址 在 href 属性 中 指出 。 


现在 我 们 知道 这 个 feed 上 一 更 新 是 在 on March 27, 2009， 它 是 为 一 个 叫做 “dive into mark” 的 
站 点 准 各 的， 并且 站 点 的 地 址 为 nttp://diveintomark.org/ o 








在 有 一 些 XML 文 档 中 ， 元 素 的 排列 顺序 是 有 意义 的 ， 但 是 Atom feed 中 不 需要 这 样 做 。 


feed 级 的 元 数据 后 边 就 是 最 近 文 章 的 列表 了 。 单 独 的 一 篇 文章 就 像 这 样 : 


<entry> 


«name»Mark«/name» 
«uri»http://diveintomark.org/«/uri» 
«/author» 


hrefz'http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edition'/» 
«published»2009-03-27T17:20:42Z«/published- 


«category scheme-'http://diveintomark.org' term-'docbook'/» 
«category scheme-'http://diveintomark.org' term-z'html'/» 


bloated, but consider this &amp;mdash; my longest chapter so far 
would be 75 printed pages, and it loads in under 5 seconds&amp;hellip; 
On dialup.«/summary» 


B — — ——————— ac uoÀ' | cn 


1. author 元 素 指示 文章 的 作者 : 一 个 叫做 Mark 的 伙计 ， 并 且 我 们 可 以 
在 http://diveintomark.org/ 找到 他 的 事迹 。 (这 就 像 是 feed 元 素 里 的 备用 链接 ， 但 是 没 
有 规定 一 定 要 这 样 。 许 多 网 络 日 志 由 多 个 作者 完成 ， 他 们 都 有 自己 的 个 人 主页 。) * 
title 元 素 给 出 这 篇 文章 的 标题 ， 即 “Dive into history, 2009 edition", 

2. 如 feed 元 素 中 的 备用 链接 一 样 ， link 元 素 给 出 这 篇 文章 的 HTML 版 本 地 址 。 

3. 每 个 条 目 也 像 feed 一 祥 ， 需 要 一 个 唯一 的 标识 。 

4. 每 个 条 目 有 两 个 日 期 与 其 相关 : 第 一 次 发 布 日 期 ( published ) 和 上 次 修改 日 期 
( updated )。 

5 条目 可 以 属于 任意 多 个 类 别 。 这 篇 文章 被 轨 类 到 diveintopython ， docbook ， 和 html o 

6. summary 元 素 中 有 这 篇 文章 的 概要 性 描述 。 P 人 元 素 这 里 没有 展示 出 来 ， 
即 content ， 我 们 可 以 把 整 篇 文章 的 内 容 都 放 在 里 边 。) 当前 样 例 中 ， summary WRA 
有 一 个 Atom 特 有 的 type='htm1' 属性 ， 5 ae um 而 非 纯 文本 。 
这 非常 重要 ， 因 为 概要 内 容 中 包含 了 HTML 中 特有 的 实体 ( amdash; 和 &nellip; ) ， 它 
们 不 应 该 以 纯 文 本 直接 显示 ， 正 确 的 形式 应 该 为 “一 "和 “.…"。 

7， 最 后 就 是 entry 元 素 的 结束 标记 了 ， 它 指示 文章 元 数据 的 站 尾 


解析 XML 


Python 可 以 使 用 几 种 不 同 的 方式 解析 XML 文档 。 它 包含 了 DOM 和 SAX 解 析 器 ， 但 是 我 们 焦点 
将 放 在 另外 一 个 叫做 ElementTree 的 库 上 边 


«Element {http://www.w3.0rg/2005/Atom}ł}feed at cdieb0- 


1. ElementTree 属 于 Python 标 准 库 的 一 部 分 ， 它 的 位 置 为 xml.etree.ElementTree o 

2. parse() 图 数 是 ElementTree 库 的 主要 入 口 ， 它 使 用 文件 名 或 者 流 对 象 作 为 参 
数 。 parse() 玉 数 会 立即 解析 完整 个 文档 。 如 果 内 存 资源 紧张 ， 也 可 以 增 量 式 地 解析 
XML 文 档 

3. parse() 画 数 会 返回 一 个 能 代表 整 篇 文档 的 对 象 。 这 不 是 根 元 素 。 要 获得 根 元 素 的 引用 


可 以 调用 getroot() 方法 。 

4， 如 预期 的 那样 ， 根 元 素 即 nttp://www.w3.0rg/2005/Atom 名 字 空 间 中 的 feed o AFREK 
示 再 次 重申 了 非常 重要 的 一 点 : XML 元 素 由 名 字 空 间 和 标签 名 〈 也 称 作 本 地 名 Wocal/ 
name)) 组 成 。 这 篇 文档 中 的 每 个 元 素 都 在 名 字 空 间 Atom 中 ， 所 以 根 元 素 被 表示 


为 (http://www.w3.0rg/2005/Atom)feed o 


ElementTree 使 用 { namespace } localname ”来 表达 XML 元 素 。 我 们 将 会 在 
ElementTree 的 API 中 多 次 见 到 这 种 形式 。 


元 素 即 列表 
在 ElementTree API 中 ， 元 素 的 行为 就 像 列表 一 样 。 列 表 中 的 项 即 该 元 素 的 子 元 素 。 


# continued from the previous example 
' (http: //www.w3.0rg/2005/Atom)feed' 


8 


«Element [http://www.w3.0rg/2005/Atom)title at e2b5d0> 
«Element ([http://www.w3.0rg/2005/Atom)subtitle at e2b4e0» 
«Element [http://www.w3.0rg/2005/Atom)id at e2b6c0» 
«Element [http://www.w3.0rg/2005/Atom)updated at e2b6f0» 
«Element [http://www.w3.0rg/2005/Atom)link at e2b4b0» 
«Element [http://www.w3.0rg/2005/Atom)entry at e2b720- 
«Element [http://www.w3.0rg/2005/Atom)entry at e2b510- 
«Element [http://www.w3.0rg/2005/Atom)entry at e2b750» 


紧 接 前 一 例子 ， 根 元 素 为 (http://www.w3.0rg/2005/Atom)feed o 
根 元 素 的 “长 度 " 即 子 元 素 的 个 数 。 
我 们 可 以 像 使 用 迭代 器 一 样 来 通 历 其 子 元 素 。 
从 输出 可 以 看 到 ， 根 元 素 总 共有 8 个 子 元 素 : 所 有 feed 级 的 元 数据 
( title , subtitle , id , updated 和 link ) , 还 有 紧 接 着 的 三 个 entry 元 素 。 


上 Nm 一 


也 许 你 已 经 注意 到 了 ， 但 我 还 是 想 要 指出 来 : 该 列表 只 包含 直接 子 元 素 。 每 一 个 entry 元 素 
都 有 其 子 元 素 ， 但 是 并 没有 包括 在 这 个 列表 中 。 这 些 子 元 素 本 可 以 包括 在 entry 元 素 的 列表 
中 ， 但 是 确实 不 属于 feed 的 子 元 素 。 但 是 ， 无 论 这 些 元 素 艇 套 的 层次 有 多 深 ， 总 是 有 办 法 定 
位 到 它们 的 ; 在 这 章 的 后 续 部 分 我 们 会 介绍 两 种 方法 。 


属性 即 字典 


XML 不 只 是 元 素 的 集合 ; 每 一 个 元 素 还 有 其 属性 集 。 一 旦 获取 了 某 个 元 素 的 引用 ， 我 们 可 以 
像 操 作 Python 的 字典 一 样 轻松 获取 到 其 属性 。 


# continuing from the previous example 
(' (http://www.w3.o0rg/XML/1998/namespacejlang': 'en'j 
«Element [http://www.w3.0rg/2005/Atom)link at e181b0» 
('href': 'http://diveintomark.org/', 

'type': 'text/html', 

'rel': 'alternate') 


«Element [http://www.w3.0rg/2005/Atomjupdated at e2b4e0» 


Ü 


1. attrib 是 一 个 代表 元 素 属性 的 字典 。 这 个 地 方 原来 的 标记 语言 是 这 样 描述 

的 : &lt;feed xmlns-'http://www.w3.0rg/2005/Atom' xml:lang-'en'&gt; o 前 级 xml: 指示 
一 个 内 置 的 名 字 空 间 ， 每 一 个 XML 不 需要 声明 就 可 以 使 用 它 。 

第 五 个 子 元 素 一 以 0 为 起 始 的 列表 中 即 [4] 一 为 元 素 link 。 

link 元 素 有 三 个 属性 : href, type ， 和 relo 

第 四 个 子 元 素 一 [3] 一 为 updated o 

元 素 updated 没有 子 元 素 ， 所 以 .attrib 是 一 个 空 的 字典 对 象 。 


RD 


在 XML 文 档 中 查找 结 点 


到 目前 为 止 ， 我 们 已 经 “ 自 顶 向 下 “地 从 根 元 素 开 始 ， 一 直到 其 子 元 素 ， 走 完了 整个 文档 。 但 是 
许多 情况 下 我 们 需要 找到 XML 中 特定 的 元 素 。Etree 也 能 完成 这 项 工作 。 


>>> import xml.etree.ElementTree as etree 
>>> tree = etree.parse('examples/feed.xml') 
>>> root = tree.getroot() 


[<Element [http://www.w3.0rg/2005/Atomjentry at e2b4e0», 
«Element [http://www.w3.0rg/2005/Atomjentry at e2b510», 
«Element (http://www.w3.0rg/2005/Atomjentry at e2b5402] 
>>> root.tag 

' (http: //www.w3.0rg/2005/Atom)feed' 


[] 
[] 


1. ME o 
2. 每 个 元 素 一 包括 根 元 素 及 其 子 元 素 一 都 有 findall() 方法 。 它 会 找到 所 有 匹配 的 子 元 
素 。 但 是 为 什么 没有 看 到 任何 结果 呢 ? 也 许 不 太 明 显 ， 这 1 E 由 
iet feed 中 不 存在 任何 叫做 feed 的 子 元 素 ， 所 以 查询 的 结果 为 一 个 空 的 列表 。 
3. 结果 也 许 也 在 你 的 意料 之 外 。 在 这 篇 文档 中 确实 存在 author 元 素 ; 事实 上 总 共有 三 
a I entry 元 素 中 都 有 一 个 ) 。 但 是 那些 author 元 素 不 是 根 元 素 的 直接 子 元 素 。 我 
DM intl 查找 author 元 素 ， 但 是 查询 的 格式 会 有 些 不 同 。 


[<Element [([http://www.w3.0rg/2005/Atomjentry at e2b4e0», 
«Element [http://www.w3.0rg/2005/Atomjentry at e2b510», 
«Element (http://www.w3.0rg/2005/Atomjentry at e2b540»2] 


[] 


1. 为 了 方便 ， 对 象 tree (调用 etree.parse() 的 返回 值 ) 中 的 一 些 方法 是 根 元 素 中 这 些 方 
法 的 镜像 。 在 这 里 ， 如 果 调 用 tree.getroot().findall() ， 则 返 反 回 值 是 一 样 的 。 

2. 也 许 有 些 意外 ， 这 个 查询 请 求 也 没有 找到 文档 中 的 author 元 素 。 为 什么 没有 呢 ? 因为 它 
只 是 tree.getroot().findall('(http://www.w3.0rg/2005/Atomjauthor ' ) 的 一 种 简 间 ART, 
即 “ 查 询 所 有 是 根 元 素 的 子 元 素 的 author "”。 因 为 这 些 author 是 entry 元 素 的 子 元 素 ， 
所 以 查询 没有 找到 任何 匹配 的 。 


find() 方法 用 来 返回 第 一 个 匹配 到 的 元 素 。 当 我 们 认为 只 会 有 一 个 匹配 ， 或 者 有 多 个 匹配 但 
我 们 只 关心 第 一 个 的 时 候 ， 这 个 方法 是 很 有 用 的 。 


>>> len(entries) 
3 


>>> title element.text 
'Dive into history, 2009 edition' 


>>> foo element 


>>> type(foo element) 
«class 'NoneType'» 


1. 在 前 一 样 例 中 已 经 看 到 一 句 返 回 所 有 的 atom:entry 元 素 。 
2. find() (a E a 返回 第 一 个 匹配 到 的 元 素 。 
3. 在 entries[o] 中 没有 叫做 foo 的 元 素 ， 所 以 返回 值 为 None o 


可 还 住 你 了 ， 在 这 里 find() 方法 非常 容易 被 误解 。 在 布尔 上 下 文中 ， 如 果 
isti UE QU rs dii 其 值 则 False (BA 


果 len(element) 等 于 0) 。 这 就 意味 着 if element. find( .') 并 非 在 测试 是 
否 find() ) 方法 找到 了 匹配 项 ; ; 这 条 语句 是 在 ; 测 | 试 匹配 到 的 元 素 是 否 38) & vm! 想 要 测 
试 find() 方法 是 否 返 回 了 一 个 元 素 ， 则 需 使 用 if element.find('...') is not None o 


也 可 以 在 所 有 派生 (qescendant) 元 素 中 搜索 ， 即 任意 嵌 套 层次 的 子 元 素 ， 孙 子 元 素 等 ..…. 


>>> all links 

[Element [http://www.w3.0rg/2005/Atom?link at e181b0», 
«Element (http://www.w3.0rg/2005/Atom)link at e2b570>, 
«Element (http://www.w3.0rg/2005/Atom)link at e2b480», 
«Element (http://www.w3.0rg/2005/Atom)link at e2b5a0»2] 


('href': 'http://diveintomark.org/', 
'type': 'text/html', 
'rel': 'alternate') 


('href': 'http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edition', 
'type': 'text/html', 
'rel': 'alternate') 

>>> all links[2].attrib 

['href': 'http://diveintomark.org/archives/2009/03/21/accessibility-is-a-harsh-mistress', 
'type': 'text/html', 
'rel': 'alternate') 

>>> all links[3].attrib 

['href': 'http://diveintomark.org/archives/2008/12/18/give-part-1-container-formats', 
'type': 'text/html', 
'rel': 'alternate') 


p —(—————OÁÀÀÀ L 


1. //(http://www.w3.0rg/2005/Atom)link 与 前 一 样 例 很 相似 ， 除 了 开头 的 两 条 斜 线 。 这 两 条 
斜 线 告诉 findall() 方法 “不 要 只 在 直接 子 元 素 中 查找 ; 查找 的 范围 可 以 是 任意 府 套 层 
次 ”。 

2， 查 询 到 的 第 一 个 结果 是 根 元 素 的 直接 子 元 素 。 从 它 的 属性 中 可 以 看 出 ， 它 是 一 个 指向 该 
feed 的 HTML 版 本 的 各 用 链接 。 

3. 其 他 的 三 个 结果 分 别 是 低 一 级 的 各 用 链接 。 每 一 个 entry 都 有 单独 一 个 link 子 元 素 ， 由 
于 在 查询 语句 前 的 两 条 斜 线 的 作用 ， 我 们 也 能 定位 到 他 们 。 


总 的 来 说 ，ElementTree 的 rindaii() 方法 是 其 一 个 非常 强大 的 特性 ， 但 是 它 的 查询 语言 却 让 
人 有 些 出 乎 意料 。 官 方 描述 它 为 “有 限 的 XPath 支持 。”XPath 是 一 种 用 于 查询 XML 文档 的 W3C 
标准 。 对 于 基础 地 查询 来 说 ，ElementTree 与 XPath 语法 上 足够 相似 ， 但 是 如 果 已 经 会 XPath 
的 话 ， 它 们 之 间 的 差异 可 能 会 使 你 感到 不 快 。 现 在 ， 我 们 来 看 一 看 另外 一 个 第 三 方 XML 库 ， 
它 扩展 了 ElementTree 的 API 以 提供 对 XPath 的 全 面 支持 。 


深入 Ixml 


bal 是 一 个 开源 的 第 三 方 库 ， 以 流行 的 libxml2 解析 器 为 基础 开发 。 提 供 了 与 ElementTree 完 
全 兼容 的 API， 并 且 扩展 它 以 提供 了 对 XPath 1.0 的 全 面 支持 ， 以 及 改进 了 一 些 其 他 精巧 的 细 
节 。 提 供 Windows 的 安装 程序 ; Linux 用 户 推 荐 使 用 特定 发 行 版 自 带 的 工具 比如 yum 或 

者 apt-get 从 它们 的 程序 库 中 安装 预 编译 好 了 的 二 进 制 文件 。 要 不 然 ， 你 就 得 手工 安装 他 们 
了 。 


[<Element [http://www.w3.0rg/2005/Atomjentry at e2b4e0», 
«Element (http://www.w3.0rg/2005/Atomjentry at e2b510», 
«Element (http://www.w3.0rg/2005/Atomjentry at e2b540»2] 


1， 导 入 lxml 以 后 ， 可 以 发 现 它 与 内 置 的 ElementTree 库 提供 相同 的 APl。 
2. parse() KZ : 与 ElementTree 相 同 。 

3. getroot() 方法 : 相同 。 

4. findall() 方法 : 完全 相同 。 


对 于 大 型 的 XML 文档 ， 1lxml 明显 比 内 置 的 ElementTree 快 了 许多 。 如 果 现 在 只 用 到 了 
ElementTree 的 APl， 并 且 想 要 使 用 其 最 快 的 实现 (implementation)， 我 们 可 以 尝试 导 
入 lxml ， 并 且 将 内 置 的 ElementTree 作 为 各 用 。 


try: 
from lxml import etree 
except ImportError: 
import xml.etree.ElementTree as etree 


但 是 im 不 只 是 一 个 更 快速 的 ElementTree。 它 的 rindali() 方法 能 够 支持 更 加 复杂 的 表达 
式 。 


>>> tree = lxml.etree.parse('examples/feed.xml') 


[<Element [http://www.w3.0rg/2005/Atom)link at eeb8a0>, 
«Element (http://www.w3.0rg/2005/Atom)link at eeb990>, 
«Element (http://www.w3.0rg/2005/Atom)link at eeb960>, 
«Element [http://www.w3.0rg/2005/Atom)link at eeb9c0»] 


[<Element [http://www.w3.0rg/2005/Atom)link at eeb930»] 
>>> NS = '(http://www.w3.0rg/2005/Atom) ' 


[<Element [http://www.w3.0rg/2005/Atomjauthor at eeba80», 
«Element [http://www.w3.0rg/2005/Atom)author at eebba0»] 


1. 在 这 个 样 例 中 ， 我 使 用 了 import lxml.etree (而 非 from lxml import etree ) ; 以 强调 
这 些 特性 只 限于 lxml o 

2， 这 一 句 在 整个 文档 范围 内 搜索 名 字 空 间 Atom 中 具有 href NE UNUS 在 查询 语句 
开头 的 // 表示 “搜索 的 范围 为 整个 文档 (不 只 是 根 元 素 的 子 元 素 ) o 
(http://www.w3.org/2005/Atom) 指示 “搜索 范围 仅 在 名 字 空 间 Atom 中 。” * 表示 “任意 本 
地 名 (local name) 的 元 素 。” [@href] 表示 “含有 href 属性 。 

3. 该 查询 找 出 所 有 包含 href 属性 并 且 其 值 为 http://diveintomark.org/ 的 Atom 元 素 。 

4. 在 简单 的 字符 串 格 式 化 后 (要 不 然 这 条 复合 查询 语句 会 变 得 特别 长 ) ， 它 搜索 名 字 空 间 
Atom 中 包含 uri 元 素 作 为 子 元 素 的 author 元 素 。 该 条 语句 只 返回 了 第 一 个 和 第 二 
个 entry 元 素 中 的 author 元 素 。 最 后 一 个 entry 元 素 中 的 author 只 包含 有 name 属 
性 ， 没 有 uri 。 


仍然 不 够 用 ? 1xmi 也 集成 了 对 任意 XPath 1.0 表 达 式 的 支持 。 我 们 不 会 深入 讲解 XPath 的 语 
法 ; 那 可 能 需要 一 整 本 书 ! 但 是 我 会 给 你 展示 它 是 如 何 集成 到 1xml 去 的 。 


>>> import lxml.etree 
>>> tree = lxml.etree.parse('examples/feed.xml') 


namespaces-NSMAP) 


[xElement [http://www.w3.0rg/2005/Atomjentry at e2b630»] 
>>> entry = entries[0] 


['Accessibility is a harsh mistress'] 


1， 要 查询 名 字 空 间 中 的 元 素 ， 首 先 需 要 定义 一 个 名 字 空 间 前 缀 映射 。 它 就 是 一 个 Python 字 
典 对 象 。 

2， 这 就 是 一 个 XPath 查询 请 求 。 这 个 XPath 表达 式 目的 在 于 搜索 category 元 素 ， 并 且 该 元 素 
包含 有 值 为 accessibility 的 term 属性 。 但 是 那 并 不 是 查询 的 结果 。 请 看 查询 字符 串 的 
Ein; 是 否 注意 到 了 /.. 这 一 块 ? 它 的 意思 是 , “然后 返回 已 经 找到 的 category 元 素 的 
父 元 素 。” 所 以 这 条 XPath 坦 询 语句 会 找到 所 有 包 
5 &lt;category term='accessibility'&gt; 作为 子 元 素 的 条 目 。 

3. xpath() 辑 数 返 回 一 个 ElementTree 对 象 列表 。 在 这 篇 文档 中 ， 只 有 一 个 category 元 
素 ， 并 且 它 的 term 属性 值 为 accessibility o 

4. XPath 表达 式 并 不 总 是 会 XN 个 元 素 列 表 。 技 术 上 说 ， 一 个 解析 了 的 XML 文档 的 DOM 
模型 并 不 包含 元 素 ; 它 只 包含 结 点 (node)。 依 据 它们 的 类 型 ， 结 点 可 以 是 元 素 ， 属 性 ， 其 
至 是 文本 内 容 。 a 当前 查询 返回 一 个 文本 结 点 列 
K: title 元 素 ( atom:title ) 的 文本 内 容 ( text() )， 并 且 title 元 素 必须 是 当前 元 素 的 
子 元 素 ( ./ )。 


生成 XML 


Python 对 XML 的 支持 不 只 限于 解析 已 存在 的 文档 。 我 们 也 可 以 从 头 来 创建 XML 文档 。 


>>> import xml.etree.ElementTree as etree 


«ns0:feed xmlns:nsO-'http://www.w3.0rg/2005/Atom' xml:lang-'en'/» 


1. 实例 化 Element 类 来 创建 一 个 新 元 素 。 可 以 将 元 素 的 名 字 (名 字 空 间 + 本 地 名 ) 作为 其 
第 一 个 参数 。 当 前 语句 在 Atom 名 字 空 间 中 创建 一 个 feed 元 素 。 它 将 会 成 为 我 们 文档 的 
根 元 素 。 

2. 将 属性 名 和 值 构 成 的 字典 对 象 传递 给 attrib 参数 ， 这 样 就 可 以 给 新 创建 的 元 素 添加 属 
性 。 请 注意 ， 属 性 名 应 该 使 用 标准 的 ElementTree 格 式 ， { namespace } localname ', 

3. 在 任何 时 候 ， 我 们 可 以 使 用 ElementTree 的 tostring() 落 数 序列 化 任意 元 素 (还 有 它 的 
子 元 素 ) 。 


这 种 序列 化 结果 有 使 你 感到 意外 吗 ?技术 上 说 ，ElementTree 使 用 的 序列 化 方法 是 精确 的 ， 但 
却 不 是 最 理想 的 。 在 本 章 开 头 给 出 的 XML 样 例文 档 中 定义 了 一 个 默认 名 字 空 间 (default 
namespace)( xmins-'http://www.w3.0rg/2005/Atom' )。 对 于 每 个 元 素 都 在 同一 个 名 字 空 间 中 的 


文档 一 比如 Atom feeds 一 定义 默认 的 名 字 空 间 非常 有 用 ， 因 为 只 需要 声明 一 次 名 字 空 间 ， 
然后 在 声明 每 个 元 素 的 时 候 只 需要 使 用 其 本 地 名 即 可 

( &1t;feed&gt; ; $&lt;link&gt; , &lt;entry&gt; )e 除非 想 要 定义 另外 一 个 名 字 空 间 中 的 元 
素 ， 否 则 没有 必要 使 用 前 级 。 


对 于 XML 解 析 器 来 说 ， 它 不 会 “注意 "到 使 用 默认 名 字 空 间 和 使 用 前 级 名 字 空 间 的 XML 文 档 之 间 
有 什么 不 同 。 当 前 序列 化 结果 的 DOM 为 : 


«ns0:feed xmlns:nsO-'http://www.w3.0rg/2005/Atom' xml:lang-'en'/» 


与 下 列 序列 化 的 DOM 是 一 模 一 样 的 : 


«feed xmlns-z'http://www.w3.0rg/2005/Atom' xml:lang-z'en'/» 


实际 上 唯一 不 同 的 只 是 第 二 个 序列 化 短 了 几 个 字符 长 度 。 如 果 我 们 改动 整个 样 例 feed， 使 每 
一 个 起 始 和 结束 标签 都 有 一 个 nso: 前 级 ， 这 将 为 每 个 起 始 标 签 增加 4 个 字符 x 79 个 标签 + 
4 个 名 字 空 间 声 明 本 身 用 到 的 字符 ， 总 共 320 个 字符 。 假 设 我 们 使 用 UTF-8 编 码 ， 那 将 是 320 
个 额外 的 字 节 。 (使 用 gzip 压 缩 以 后 ， 大 小 可 以 降 到 21 个 字 节 ， 但 是 ，21 个 字 节 也 是 字 
TW.) 也 许 对 个 人 来 说 这 算 不 了 什么 ， 但 是 对 于 像 Atom feed 这 样 的 东西 ， 只 要 稍 有 改变 就 有 
可 能 被 下 载 上 干 次 ， 每 一 个 请 求 节约 的 几 个 字 节 就 会 迅速 累加 起 来 。 


内 置 的 ElementTree 库 没有 提供 细 粒 度 地 对 序列 化 时 名 字 空 间 内 的 元 素 的 控制 ， 但 是 1xm 有 
这 样 的 功能 。 


>>> import lxml.etree 
«feed xmlnsz'http://www.w3.0rg/2005/Atom'/» 


>>> print(lxml.etree.tounicode(new feed)) 
«feed xmlns-z'http://www.w3.0rg/2005/Atom' xml:lang-z'en'/» 


1. 首先 ， 定 义 一 个 用 于 名 字 空 间 映 射 的 字典 对 象 。 其 值 为 名 字 空 间 ; 字典 中 的 键 即 为 所 需 
要 的 前 级 。 使 用 none 作为 前 级 来 定义 默认 的 名 字 空 间 。 

2， 现 在 我 们 可 以 在 创建 元 素 的 时 候 ， 给 lxml 专 有 的 nsmap 参数 传 值 ， 并 且 1xml 会 参照 我 
们 所 定义 的 名 字 空 间 前 级 。 

3. 如 所 预期 的 那样 ， 该 序列 化 使 用 Atom 作 为 默认 的 名 字 空 间 ， 并 且 在 声明 feed 元 素 的 时 
候 没有 使 用 名 字 空 间 前 级 。 

4. Wisi... 我 们 忘 了 加 上 xml:lang 属性 。 我 们 可 以 使 用 set() 方法 来 随时 给 元 素 添加 所 需 属 
性 。 该 方法 使 用 两 个 参数 : 标准 ElementTree 格 式 的 属性 名 ， 然 后 ， 属 性 值 。 (该 方法 不 
是 lxml 特有 的 。 在 该 样 例 中 ， 只 
有 nsmap 参 数 是 xm 特有 的 ， 它 用 来 控制 序列 化 输出 时 名 字 空 间 的 前 级 。) 


难道 每 个 XML 文 档 只 能 有 一 个 元 素 吗 ? 当然 不 了 。 我 们 可 以 创建 子 元 素 。 


>>> print(lxml.etree.tounicode(new feed ) ) 
«feed xmlns-'http://www.w3.0rg/2005/Atom' xml:lang-'en'»«title type-'html'/»«/feed» 


«feed xmlns-'http://www.w3.0rg/2005/Atom' xml:lang-'en'»«title type-'html'»dive into &amp 
«feed xmlns-z'http://www.w3.0rg/2005/Atom' xml:lang-'en'» 


«title type-'html'»dive into&amp;hellip;«/title» 
«/feed» 








1. 给 已 有 元 素 创 建 子 元 素 ， 我 们 需要 实例 化 subElement 类 。 它 只 要 求 两 个 参数 ， 父 元 素 
( 即 该 样 例 中 的 neu feed ) 和 子 元 素 的 名 字 。 由 于 该 子 元 素 会 从 父 元 素 那 儿 继 承 名 字 空 
间 的 映射 关系 ， 所 以 这 里 不 需要 再 声明 名 字 空 间 前 级 。 

2. 我 们 也 可 以 传递 属性 字典 给 它 。 字 典 的 键 即 属性 名 ; 值 为 属性 的 值 。 

3， 如 预期 的 那样 ， 新 创建 的 title 元 素 在 Atom 名 字 空 间 中 ， 并 且 它 作为 子 元 素 插入 
到 feed 元 素 中 。 由 于 title 元 素 没 有 文件 内 容 ， 也 没有 其 子 元 素 ， 所 以 lxml 将 其 序列 
化 为 一 个 空 元 素 (使 用 /ggt; ) 。 

4. 设 定 元 素 的 文本 内 容 ， 只 需要 设 定 其 .text BIE 

5， 当 前 title 元 素 序 列 化 的 时 候 就 使 用 了 其 文本 内 容 。 任 何 包含 了 sit; 或 者 & 符号 的 内 
容 在 序列 化 的 时 候 需要 被 转 义 。 1xml 会 自动 处 理 转 义 。 

6. 我们 也 可 以 在 序列 化 的 时 候 应 用 "漂亮 的 输出 (pretty printing)”， 这 会 在 每 个 结束 标签 的 末 
尾 ， 或 者 含有 子 元 素 但 没有 文本 内 容 的 标签 的 末尾 添加 换行 符 。 用 术语 说 就 是 ， 1xml 添 
加 “无 意义 的 空白 (insignificant whitespace)” 以 使 输出 更 具 可 读 性 。 





你 也 许 也 想 要 看 一 看 xmlwitch， 它 也 是 用 来 生成 XML 的 另外 一 个 第 三 方 库 。 它 大 量 地 使 
用 了 with 语句 来 使 生成 的 XML 代码 更 具 可 读 性 。 

















解析 破损 的 XML 


XML 规 范文 档 中 指出 ， 要 求 所 有 遵循 XML 规 范 的 解析 器 使 用 “严厉 的 (draconian) 错 误 处 理 ”。 
即 ， 当 它们 在 XML 文档 中 检测 到 任何 编排 良好 性 (wellformedness) 错 误 的 时 候 ， 应 当 立 即 停止 
解析 。 编 排 良 好 性 错误 包括 不 匹配 的 起 始 和 结束 标签 ， 未 定义 的 实体 (entity)， 非 法 的 Unicode 
字符 ， 还 有 一 些 只 有 内 行李 懂 的 规则 (esoteric rules)。 这 与 其 他 的 常见 格式 ， 比 如 HTML， 形 
成 了 鲜明 的 对 比 一 即使 忘记 了 封 半 HTML 标签， 或 者 在 属性 值 中 忘 了 转 义 & 字符 ， 我 们 的 浏 
览 器 也 不 会 停止 泻 染 一 个 Web 页 面 。 (通常 大 家 认为 HTML 没 有 错误 处 理 机 制 ， 这 是 一 个 常见 
的 误解 。HTML 的 错误 处 理 实际 上 被 很 好 的 定义 了 ， 但 是 它 比 “遇见 第 一 个 错误 即 停 止 * 这 种 机 
制 要 复杂 得 多 。) 


一 些 人 (包括 我 自己 ) 认为 XML 的 设计 者 强制 实行 这 种 严格 的 错误 处 理 本 身 是 一 个 失误 。 请 
不 要 误解 我 ; 我 当然 能 看 到 简化 错误 处 理 机 制 的 优势 。 但 是 在 现实 中 , “编排 良好 性 ”这 种 构想 
比 年 听 上 去 更 加 复杂 ， 特 别 是 对 XML (比如 Atom feeds) 这 种 发 布 在 网 络 上 ， 通 过 HTTP 传 播 
的 文档 。 早 在 1997 年 XML 就 标准 化 了 这 种 严厉 的 错误 处 理 ， 尽 管 XML 已 经 非常 成 熟 ， 研 究 一 
直 表 明 ， 网 络 上 相当 一 部 分 的 Atom feeds 仍 然 存在 着 编排 完整 性 错误 。 


所 以 ， 从 理论 上 和 实际 应 用 两 种 角度 来 看 ， 我 有 理由 “不 惜 任何 代价 "来 解析 XML 文档 ， 即 ， 当 
遇 到 编排 良好 性 错误 时 ， 不 会 中 断 解 析 操 作 。 如 果 你 认为 你 也 需要 这 样 做 ， lxml 可 以 助 你 一 
HE. 


以 下 是 一 个 破损 的 XML 文档 的 片断 。 其 中 的 编排 良好 性 错误 已 经 被 高 亮 标 出 来 了 。 


<?xml version-'1.0' encoding-'utf-8'?» 
«feed xmlns-'http://www.w3.0rg/2005/Atom' xml:lang-'en'» 
«title»dive into «mark»-&hellip;«/mark»«/title» 


«/feed» 


因为 实体 &hellip; 并 没有 在 XML 中 被 定义 ， 所 以 这 算 作 一 个 错误 。 ( 它 在 HTML 中 被 定 
义 。) 如 果 我 们 党 试 使 用 默认 的 设置 来 解析 该 破损 的 feed， ixml 会 因为 这 个 未 定义 的 实体 而 
停 下 来 。 


>>> import lxml.etree 

>>> tree = lxml.etree.parse('examples/feed-broken.xml') 

Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
File "lxml.etree.pyx", line 2693, in lxml.etree.parse (src/lxml/lxml.etree.c:52591) 
File "parser.pxi", line 1478, in lxml.etree. parseDocument (src/lxml/lxml.etree.c:75665 
File "parser.pxi", line 1507, in lxml.etree. parseDocumentFromURL (src/lxml/lxml.etree. 
File "parser.pxi", line 1407, in lxml.etree. parseDocFromFile (src/lxml/lxml.etree.c:75 
File "parser.pxi", line 965, in lxml.etree. BaseParser. parseDocFromFile (src/lxml/lxml 
File "parser.pxi", line 539, in lxml.etree. ParserContext. handleParseResultDoc (src/lx 
File "parser.pxi", line 625, in lxml.etree. handleParseResult (src/lxml/lxml.etree.c:68 
File "parser.pxi", line 565, in lxml.etree. raiseParseError (src/lxml/lxml.etree.c:6812 

lxml.etree.XMLSyntaxError: Entity 'hellip' not defined, line 3, column 28 
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为 了 解析 该 破损 的 XML 文档 ， 忽 略 它 的 编排 良好 性 错误 ， 我 们 需要 创建 一 个 自 定义 的 XML 解 
析 器 。 





examples/feed-broken.xml:3:28:FATAL:PARSER:ERR UNDECLARED ENTITY: Entity 'hellip' not def 
>>> tree.findall('i[http://www.w3.0rg/2005/Atom)title') 

[Element [http://www.w3.0rg/2005/Atomjtitle at ead510»] 

>>> title = tree.findall('i(http://www.w3.0rg/2005/Atom)title')[0] 


'dive into ' 


«feed xmlns-'http://www.w3.0rg/2005/Atom' xml:lang-'en'» 
«title»dive into </title> 


[rest of serialization snipped for brevity] 
LE 


1. 实例 化 1xmi.etree.xMLParser 类 来 创建 一 个 自 定 义 的 解析 器 。 它 可 以 使 用 许多 不 同 的 命名 
参数 。 在 此 ， 我 们 感 兴 趣 的 为 recover 参数 。 当 它 的 值 被 设 为 True ，XML 解 析 器 会 尽力 
尝试 从 编排 良好 性 错误 中 “恢复”。 

2. 为 使 用 自 定 的 解析 器 来 处 理 XML 文 档 ， 将 对 象 parser 作为 第 二 个 参数 传递 给 parse() ER 
数 。 注 意 ， 1xml 没有 因为 那个 未 定义 的 ahellip; 实体 而 抛 出 异常 。 





3. 解析 器 会 记录 它 所 遇 到 的 所 有 编排 良好 性 错误 。 (无 论 它 是 否 被 设置 为 需要 从 错误 中 恢 
复 ， 这 个 记录 总 会 存在 。) 

4.， 由 于 不 知道 如 果 处 理 该 未 定义 的 ghellip; 实体 ， 解 析 器 默认 会 将 其 省 略 掉 。 title 元 素 
的 文本 内 容 变 成 了 'dive into ' o 

5， 从 序列 化 的 结果 可 以 看 出 ， 实 体 snellip; 并 没有 被 移 到 其 他 地 方 去 ; 它 就 是 被 省 略 了 。 


在 此 ， 必 须 反 复 强 调 ， 这 种 “可 恢复 的 "XML 解析 器 没有 互 用 性 (interoperability) 保 证 。 另 一 个 
不 同 的 解析 器 可 能 就 会 认为 &hellip; 来 自 HTML， 然 后 将 其 替换 为 &amp;hellip; 。 这 样 “ 更 
好 " 吗 ? 也 许 吧 。 这 样 " 更 正确 " 吗 ? 不 ， 两 种 处 理 方 法 都 不 正确 。 正 确 的 行为 〈 根 据 XML 规 
范 ) 应 该 是 终止 解析 操作 。 如 果 你 已 经 决定 不 按 规范 来 ， 你 得 自己 负责 。 


进一步 阅读 


。 维基 百科 上 的 词 条 XML 

e ElementTree 的 XML API 

。 元 素 和 树 状元 素 

e ElementTree 中 对 XPath 的 支持 

e ElementTree 的 迭代 式 解 析 (iterparse) 功 能 
e lxml 

e 使 用 lxml 解析 XML 和 HTML with 

e 使 用 lxml 解析 XPath 和 XSLT 

e xmlwitch 


Chapter 13 序列 化 Python 对 象 


" Every Saturday since we've lived in this apartment, | have awakened at 6:15, poured 
myself a bowl of cereal, added a quarter-cup of 296 milk, sat on this end of this couch, 
turned on BBC America, and watched Doctor Who. " — Sheldon, The Big Bang Theory 


深入 


序列 化 的 概念 很 简单 。 内 存 里 面 有 一 个 数据 结构 ， 你 希望 将 它 保 存 下 来 ， 重 用 ， 或 者 发 送 给 

其 他 人 。 你 会 怎么 做 ? 8, 这 取决 于 你 想 要 怎么 保存 ， 怎 么 重用 ， 发 送 给 谁 。 很 多 游戏 允许 你 
在 退出 的 时 候 保存 进度 ， 然后 你 再 次 启动 的 时 候 回 到 上 次 退出 的 地 方 。( 实 际 上 , 很 多 非 游戏 程 
序 也 会 这 么 干 。) 在 这 个 情况 下 , 一 个 捕获 了 当前 进度 的 数据 结构 需要 在 你 退出 的 时 候 保存 到 
磁盘 上 ， 接 着 在 你 重新 启动 的 时 候 从 磁盘 上 加 载 进来 。 这 个 数据 只 会 被 创建 它 的 程序 使 用 ， 

不 会 发 送 到 网 络 上 ， 也 不 会 被 其 它 程序 读 取 。 因 此 ， 互 操作 的 问题 被 限制 在 保证 新 版 本 的 程 

序 能 够 读 取 以 前 版 本 的 程序 创建 的 数据 。 


在 这 种 情况 下 ， pickle 模块 是 理想 的 。 它 是 Python 标 准 库 的 一 部 分 , 所 以 它 总 是 可 用 的 。 
Rik; 它 的 大 部 分 同 Python 解释 器 本 身 一 样 是 用 C 写 的 。 它 可 以 存储 任意 复杂 的 Python 数 据 结 
构 。 


什么 东西 能 用 pickle 模块 存储 ? 


。 所 有 Python 支持 的 原生 类 型 : 布尔 , 整数 , 浮 点 数 , 复数 , 字符 串 ，bytes (CP D PIR, F 
节 数 组 , 以 及 None . 

e 由 任何 原生 类 型 组 成 的 列表 ， 元 组 ， 字 典 和 集合 。 

e 由 任何 原生 类 型 组 成 的 列表 ， 元 组 ， 字 典 和 集合 组 成 的 列表 ， 元 组 ， 字 典 和 集合 (可 以 一 
直 艇 套 下 去 ， 直 至 Python 支持 的 最 大 递 妇 层 数 )， 

e KN X, MXR EE) 


dnm 不 不 够 用 ， picke 模块 也 是 可 扩展 的 。 如 果 你 对 可 扩展 性 有 兴趣 ， 请 查看 本 章 最 后 的 
一 步 阅读 小 节 中 的 链接 。 
本 章 例 子 的 快速 笔记 


本 章 会 使 用 两 个 Python Shell 来 讲 故事 。 本 章 的 例子 都 是 一 个 单独 的 故事 的 一 部 分 。 当 我 演 
示 pickle 和 json 模块 时 ， 你 会 被 要 求 在 两 个 Python Shell 中 来 回 切 换 。 


为 了 让 事情 简单 一 点 ， 打 开 Python Shell 并 定义 下 面 的 变量 : 


>>> shell = 1 


保持 该 窗口 打开 。 现在 打开 另 一 个 Python Shell 并 定义 下 面 下 面 的 变量 : 


>>> shell = 2 


贯穿 整个 章节 , 在 每 个 例子 中 我 会 使 用 sen 变量 来 标识 使 用 的 是 哪个 Python Shell, 


保存 效 据 到 Pickle 文件 


pickle 模块 的 工作 对 象 是 数据 结构 。 让 我 们 来 创建 一 个 : 
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>>> entry['title'] = 'Dive into history, 2009 edition' 

>>> entry['article link'] = 'http://diveintomark.org/archives/2009/03/27/dive-into-histor 
>>> entry['comments link'] = None 

>>> entry['internal id'] = b'NxDENXD5NxBANXxF8' 

>>> entry['tags'] = ('diveintopython', 'docbook', 'html') 

>>> entry['published'] = True 

>>> import time 


>>> entry['published date'] 
time.struct time(tm year-2009, tm mon-3, tm mday-27, tm hour-22, tm min-20, tm sec-42, tm 


| 


1. 在 Python Shell 1 里 面 。 

2. 想法 是 建立 一 个 Python 字典 来 表示 一 些 有 用 的 东西 ， 比 如 一 个 Atom 供稿 的 entry。 但 是 
为 了 炫耀 一 下 picke 模块 我 也 想 保证 里 面包 含 了 多 种 不 同 的 数据 类 型 。 不 需要 太 关 心 这 
些 值 。 

3. time 模块 包含 一 个 表示 时 间 点 (精确 到 1 毫秒 ) 的 数据 结构 ( time_struct ) 以 及 操作 时 间 结 
构 的 函数 。 strptime() 豆 数 接受 一 个 格式 化 过 的 字符 串 并 将 其 转化 成 一 
个 time struct 。 这 个 字符 串 使 用 的 是 默认 格式 ， 但 你 可 以 通过 格式 化 代码 来 控制 它 。 查 
看 time 模块 来 获得 更 多 细节 。 





这 是 一 个 很 帅 的 Python 字典 。 让 我 们 把 它 保存 到 文件 。 


1 
>>> import pickle 


1， 仍 然 在 Python Shell #1 中 。 

2. 使 用 open) 画 数 来 打开 一 个 文件 。 设 置 文件 模式 为 'wb' 来 以 二 进 制 写 模式 打开 文件 。 
把 它 放 入 with 语句 中 来 保证 在 你 完成 的 时 候 文 件 自动 被 关闭 。 

3. pickle 模块 中 的 dump() 画 数 接受 一 个 可 序列 化 的 Python 数据 结构 , 使 用 最 新 版 本 的 
pickle 协 议 将 其 序列 化 为 一 个 二 进 制 的 ，Python 特 定 的 格式 ， 并 且 保 存 到 一 个 打开 的 文 
件 里 。 


最 后 一 句 话 很 重要 。 


pickle 模块 接受 一 个 Python 数据 结构 并 将 其 保存 的 一 个 文件 。 

要 做 到 这 样 ， 它 使 用 一 个 被 称 为 “pickle 协 议 ” 的 东西 序列 化 该 数据 结构 。 

pickle 协议 是 Python 特 定 的 ， 没 有 任何 跨 语 言 兼容 的 保证 。 你 很 可 能 不 能 使 用 Perl, PHP, 
Java, 或 者 其 他 语言 来 对 你 刚刚 创建 的 entry.pickle 文件 做 任何 有 用 的 事情 。 

并 非 所 有 的 Python 数据 结构 都 可 以 通过 pickle 模块 序列 化 。 随 着 新 的 数据 类 型 被 加 入 到 
Python 语言 中 ，pickle 协 议 已 经 被 修改 过 很 多 次 了 ， 但 是 它 还 是 有 一 些 限 制 。 

由 于 这 些 变 化 ， 不 同 版 本 的 Python 的 兼容 性 也 没有 保证 。 新 的 版 本 的 Python 支持 旧 的 序 
列 化 格式 ， 但 是 旧版 本 的 Python 不 支持 新 的 格式 (因为 它们 不 支持 新 的 数据 类 型 )。 
除非 你 指定 ， pickle 模块 中 的 函数 将 使 用 最 新 版 本 的 pickle 协 议 。 这 保证 了 你 对 可 以 被 
序列 化 的 数据 类 型 有 最 大 的 灵活 度 ， 但 这 也 意味 着 生成 的 文件 不 能 被 不 支持 新 版 pickle 协 
议 的 旧版 本 的 Python 读 取 。 

最 新 版 本 的 pickle 协 议 是 二 进 制 格式 的 。 请 确认 使 用 二 进 制 模式 来 打开 你 的 pickle 文 件 , 否 
则 当 你 写 入 的 时 候 数 据 会 被 损坏 。 


从 Pickle 文 件 读 取 数据 


现在 切换 到 你 的 第 二 个 Python Shell 一 即 不 是 你 创建 entry 字典 的 那个 。 
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Traceback (most recent call last): 


File "«stdin»", line 1, in «module» 


NameError: name 'entry' is not defined 
>>> import pickle 


['comments link': None, 


一 人 


'internal id': b'NXxDENXDBNXxBANXF8', 

'title': 'Dive into history, 2009 edition', 

'tags': ('diveintopython', 'docbook', 'html'), 

'article link': 
'http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edition', 

'published date': time.struct time(tm year-2009, tm mon-3, tm mday-27, tm hour-22, tm mi 
'published': Truej 


EE 





这 是 Python Shell #2. 

这 里 没有 entry 变量 被 定义 过 。 你 在 Python Shell #1 中 定义 了 entry. 变量 , 但 是 那 是 另 
一 个 拥有 自己 状态 的 完全 不 同 的 环境 。 

打开 你 在 Python Shell #1 中 创建 的 entry.pickle 文件 。 pickle 模块 使 用 二 进 制 数据 格 
式 ， 所 以 你 总 是 应 该 使 用 二 进 制 模式 打开 pickle 文 件 。 

pickle.load() 函数 接受 一 个 流 对 象 , 从 流 中 读 取 序列 化 后 的 数据 ， 创 建 一 个 新 的 Python 
对 象 ， 在 新 的 Python 对 象 中 重建 被 序列 化 的 数据 ， 然 后 返回 新 建 的 Python 对 象 。 

现在 entry 变量 是 一 个 键 和 值 看 起 来 都 很 熟悉 的 字典 。 


pickle.dump() / pickle.load() 循环 的 结果 是 一 个 和 原始 数据 结构 等 同 的 新 的 数据 结构 。 


True 
False 


('diveintopython', 'docbook', 'html') 
>>> entry2['internal id'] 
b'NxDENXD5NXBANXF8 ' 


切换 回 Python Shell #1. 

打开 entry.pickle 文件 。 

将 序列 化 后 的 数据 装载 到 一 个 新 的 变量 ，entry2 o 

Python 确认 两 个 字典 ，entry 和 entry2 是 相等 的 。 在 这 个 shell 里 , 你 从 需 开 始 构 造 

了 entry， 从 一 个 空 字典 开始 然后 手工 给 各 个 键 赋值 。 你 序列 化 了 这 个 字典 并 将 其 保存 

在 entry.pickle 文件 中 。 现 在 你 从 文件 中 读 取 序列 化 后 的 数据 并 创建 了 原始 数据 结构 的 

一 个 完美 复制 品 。 

5， 相 等 和 相同 是 不 一 样 的 。 我 说 的 是 你 创建 了 原始 数据 结构 的 一 个 完美 复制 品 , 这 没 错 。 但 
它 仅 仅 是 一 个 复制 品 。 

6， 我 要 指出 'tags' 键 对 应 的 值 是 一 个 元 组 ， 而 'internal id' 键 对 应 的 值 是 一 个 bytes 对 

象 。 原 因 在 这 章 的 后 面 就 会 清楚 了 


不 使 用 文件 来 进行 序列 化 


前 一 节 中 的 例子 展示 了 如 果 将 一 个 Python 对 象 序列 化 到 磁 衣 文件 。 但 如 果 你 不 想 或 不 需要 文 
件 呢 ? 你 也 可 以 序列 化 到 一 个 内 存 中 的 bytes 对 象 


Bom 


>>> shell 
1 


«class 'bytes'» 


True 


1. pickle.dumps() PEZ (EXREX ZU RAAI 's' ) 执 行 和 pickle.dump() PEZ&ARBISIBJEE 2145s 
RRRS RASE 2E IS BUR UR Ce RR cb, 3x T ES SC f 3 BT ELE 21 4E BR 
据 。 

2， 由 于 pickle 协 议 使 用 一 个 二 进 制 数据 格式 ， 所 以 pickle.dumps() WORE] bytes 对 象 。 

. pickle.loads() 函数 (再 再 一 次 ， 注意 函数 名 最 后 的 ， S ) 执行 和 pickle.load() 函数 一 样 的 
反 序 列 化 。 取 代 接 受 一 个 流 对 象 并 去 文件 读 取 序 列 化 后 的 数据 ， 它 接受 包含 序列 化 后 的 
数据 的 bytes 对 象 , 比如 pickle.dumps() MIŠUR [BIB x12. 

4.， 最 终结 果 是 一 样 的 : 原始 字典 的 完美 复制 。 


字 节 串 和 字符 捉 又 一 次 抬 起 了 它们 于 陋 的 头 。 


pickle 协 议 已 经 存在 好 多 年 了 ， 它 随 着 Python 本 身 的 成 熟 也 不 断 成 熟 。 现 在 存在 四 个 不 同 版 本 
的 pickle 协 议 。 


e Python 1.x 有 两 个 pickle 协 议 ， 一 个 基于 文本 的 格式 (“版 本 0”) 以 及 一 个 二 进 制 格 式 (“版 本 
1”). 

e Python 2.3 引入 了 一 个 新 的 pickle 协 议 (* 版 本 2") 来 处 理 Python 类 对 象 的 新 功能 。 它 是 一 
个 二 进 制 格式 。 

e Python 3.0 引入 了 另 一 个 pickle 协议 (版 本 3") ， 显 式 的 支持 bytes 对 象 和 字 节 数组 。 
它 是 一 个 二 进 制 格式 。 


你 看 , 字 节 串 和 字符 串 的 区 别 又 一 次 抬 起 了 它们 王 陋 的 头 。 (如 果 你 觉得 惊奇 ， 你 肯定 开小差 
T. 在 实践 中 这 意味 着 , 尽管 Python 3 可 以 读 取 版 本 2 的 pickle 协议 生成 的 数据 , Python 2 
不 能 读 取 版 本 3 的 协议 生成 的 数据 . 


调试 Pickle 文件 


pickle 协议 是 长 什么 样 的 呢 ? 让 我 们 离开 Python Shell 一 会 会 ， 来 看 一 下 我 们 创建 
的 entry.pickle 文件 。 


youQlocalhost:-/diveintopython3/examples$ ls -1 entry.pickle 

-rw-r--r-- 1 you you 358 Aug 3 13:34 entry.pickle 
youQlocalhost:-/diveintopython3/examples$ cat entry.pickle 

comments linkqNXtagsqXdiveintopythongXdocbookqXhtmlq?qX publishedq? 
XlinkXJhttp://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edition 
q  Xpublished dateq 

ctime 

struct time 

?gRqXtitleqXDive into history, 2009 editionqu. 


这 不 是 很 有 用 。 你 可 以 看 见 字符 串 ， 但 是 其 他 数据 类 型 显示 为 不 可 打印 的 (或 者 至 少 是 不 可 读 
的 ) 字 符 。 域 之 间 没 有 明显 的 分 隔 符 (比如 跳 格 符 或 空格 )。 你 表 定 不 希望 来 调试 这 样 一 个 格 
式 。 


>>> shell 

工 

>>> import pickletools 

>>> with open('entry.pickle', 'rb') as f: 
n pickletools.dis(f) 

0: Nx80 PROTO 3 


2: EMPTY DICT 
3: q BINPUT 0 
5: ( MARK 
6: X BINUNICODE 'published date' 
25: q BINPUT 1 
27: C GLOBAL 'time struct time' 
45: q BINPUT 2 
47: ( MARK 
48: M BININT2 2009 
51: K BININT1 3 
53: K BININT1 27 
55: kK BININT1 22 
57: K BININT1 20 
59: K BININT1 42 
61: K BININT1 4 
63: K BININT1 86 
65: J BININT -1 
70: t TUPLE (MARK at 47) 
71: q BINPUT 3 
Tj 3 EMPTY DICT 
74: q BINPUT 4 
76: Nx86 TUPLE2 
77: q BINPUT 5 
79: R REDUCE 
80: q BINPUT 6 
82: X BINUNICODE 'comments_link' 
100: q BINPUT 7 
102: N NONE 
103: X BINUNICODE 'internal_id' 
119: q BINPUT 8 
12E do SHORT BINBYTES "JH BEBS' 
127: q BINPUT 9 
129: X BINUNICODE 'tags' 
138: q BINPUT 10 
140: X BINUNICODE 'diveintopython' 
159: q BINPUT 11 
161: X BINUNICODE 'docbook' 
173: q BINPUT 12 
175: X BINUNICODE 'html' 
184: q BINPUT 13 
186: Nx87 TUPLES 
187: q BINPUT 14 
189: X BINUNICODE 'title' 
199: q BINPUT 15 
201: X BINUNICODE 'Dive into history, 2009 edition' 
237: q BINPUT 16 
239: X BINUNICODE 'article link' 
256: q BINPUT 17 
258: X BINUNICODE 'http://diveintomark.org/archives/2009/03/27/dive-into-history 
337: q BINPUT 18 
339: X BINUNICODE 'published' 
353: q BINPUT 19 
355: \x88 NEWTRUE 
356: u SETITEMS (MARK at 5) 
e S STOP 


«mark»-highest protocol among opcodes = 3«/mark- 
Hsc —————————————Á'———J 
这 个 反 汇编 中 最 有 趣 的 信息 是 最 后 一 行 , 因为 它 包 含 了 文件 保存 时 使 用 的 pickle 协 议 的 版 本 


号 。 在 pickle 协 议 里 面 没 有 明确 的 版 本 标志 。 为 了 确定 保存 pickle 文 件 时 使 用 的 协议 版 本 ， 你 
需要 查看 序列 化 后 的 数据 的 标记 (“opcodes”) 并 且 使 用 硬 编码 的 哪个 版 本 的 协议 引入 了 哪些 标 





记 的 知识 (来 确定 版 本 号 )。 pickle.dis() 琅 数 正 是 这 么 干 的 ， 并 且 它 在 反 汇编 的 输出 的 最 后 
一 行 打印 出 结果 。 下 面 是 一 个 不 打印 ， 仅 仅 返 回 版 本 号 的 范 数 : 


[下 载 pickleversion.py ] 


import pickletools 
def protocol version(file object): 
maxproto - -1 
for opcode, arg, pos in pickletools.genops(file object): 
maxproto - max(maxproto, opcode.proto) 
return maxproto 


>>> import pickleversion 

>>> with open('entry.pickle', 'rb') as f: 

m v = pickleversion.protocol version(f) 
>>> Vv 
3 


序列 化 Python 对 象 以 供 其 它 语 言 读 取 


pickle 模块 使 用 的 数据 格式 是 Python 特定 的 。 它 没有 做 任何 兼容 其 它 编程 语言 的 努力 。 如 果 
跨 语 言 兼 容 是 你 的 需求 之 一 ， 你 得 去 寻找 其 它 的 序列 化 格式 。 一 个 这 样 的 格式 是 JSON。 
“JSON” (Vx "JavaScript Otlact Notation," 但 是 不 要 让 名 字 糊 弄 你 。 一 JSON 是 被 设计 为 跨 
语言 使 用 的 。 


Python 3 在 标准 库 中 包含 了 一 个 json 模块 。 同 pickle 模块 类 似 ，json 模块 包含 一 

数 ， 可 以 序列 化 数据 结构 ， 保 存 序列 化 后 的 数据 至 磁盘 ， 从 磁盘 上 读 取 序列 化 后 的 数据 ， 将 
SRIBBCESTHORUNBUPYIDORGSUR, 但 两 者 也 有 一 些 很 重要 的 区 别 。 首先 , JSON 数 据 格式 是 
基于 文本 的 , 不 是 二 进 制 的 。RFC 4627 定义 了 JSON 格 式 以 及 怎样 将 各 种 类 型 的 数据 编码 成 
文本 。 比 如 ， 一 个 布尔 值 要 么 存储 为 5 个 字符 的 字符 串 'false' ， 要 么 存储 为 4 个 字符 的 字符 
$ 'true' o 所 有 的 JSON 值 都 是 大 小 写 敏 感 的 。 


第 二 ， 由 于 是 文本 格式 , 存在 空白 (whitespaces) 的 问题 。 JSON 人 允许 在 值 之 间 有 任意 数目 的 
空白 (空格 , 跳 格 , 回 车 ， 换 行 )。 空 白 是 “无 关 紧 要 的 "， 这 意味 着 JSON 编 码 器 可 以 按 它们 的 喜 
好 添加 任意 多 或 任意 少 的 空白 , 而 JSON 解 码 器 被 要 求 忽略 值 之 间 的 任意 空白 。 这 人 允许 你 “美观 
的 打印 (pretty-print) ”你 的 JSON 数据 , 通过 不 同 的 缩 进 层 次 能 套 值 ， 这 样 你 就 可 以 在 标准 
浏览 aa E Éo Python 的 json 模块 有 在 编码 时 执行 美观 打印 (pretty- 
printing) 的 选 


第 三 , 字符 编码 的 问题 是 长 期 存在 的 。JSON 用 纯 文本 编码 数据 , 但 是 你 知道 , “不 存在 纯 文本 


这 种 东西 。”JSON 必 须 以 Unicode 编码 (UTF-32, UTF-16, 或 者 默认 的 , UTF-8) 方 式 存储 , RFC 
4627 的 第 3 节 定义 了 如 何 区 分 使 用 的 是 哪 种 编码 。 


将 数据 保存 至 JSON 文件 


JSON 看 起 来 非常 像 你 在 Javascript 中 手工 定义 的 数据 结构 。 这 不 是 意外 ; 实际 上 你 可 以 使 用 
JavaScript 的 eval() 画 数 来 "解码 ” JSON 序 列 化 过 的 数据 。 ee 适 


用 ， 


但 关键 点 是 JSON 是 合法 的 JavaScript。) 因此 , 你 可 能 已 经 熟悉 JSON 了 。 
>>> shell 


>>> basic entry['id'] = 256 

>>> basic entry['title'] = 'Dive into history, 2009 edition' 
>>> basic entry['tags'] = ('diveintopython', 'docbook', 'html') 
>>> basic entry['published'] = True 

>>> basic entry['comments link'] = None 

>>> import json 


1. 我 们 将 创建 一 个 新 的 数据 结构 ， 而 不 是 重用 现存 的 entry 数据 结构 。 在 这 章 的 后 面 , 我 们 


将 会 看 见 当 我 们 试图 用 JSON 编 码 更 复杂 的 数据 结构 的 时 候 会 发 生 什么 。 


2. JSON 是 一 个 基于 文本 的 格式 ， 这 意味 你 可 以 以 文本 模式 打开 文件 ， 并 给 定 一 个 字符 编 


码 。 用 UTF-8 总 是 没 错 的 。 


3. [B] pickle 模块 一 样 ，json 模块 定义 了 dump() 辑 】 数 ， 它 接受 一 个 Python 数据 结构 和 一 


个 可 写 的 流 对 象 。 dump() 画 数 将 Python 数据 结构 序列 化 并 写 入 到 流 对 象 中 。 在 with 语 
名 内 工作 保证 当 我 们 完成 的 时 候 正 确 的 关闭 文件 。 


那么 生成 的 JSON 序 列 化 数据 是 什么 样 的 呢 ? 


youQlocalhost:-/diveintopython3/examples$ cat basic.json 
["published": true, "tags": ["diveintopython", "docbook", "html1"], "comments link": null, 
"id": 256, "title": "Dive into history, 2009 edition") 


Eee 可 


这 肯定 比 pickle 文件 更 可 读 。 然 而 JSON 的 值 之 间 可 以 包含 任意 数目 的 空 把 , 并 且 json 模块 
提供 了 一 个 方便 的 途径 来 利用 这 一 点 生成 更 可 读 的 JSON 文 件 。 


>>> shell 


>>> with open('basic-pretty.json', mode-'w', encoding-'utf-8') as f: 


1， 如 果 你 给 json.dump() EX2AUz A. indent 参数 , 它 以 文件 变 大 为 代价 使 生成 的 JSON 文 件 更 


这 


可 读 。 indent 参数 是 一 个 整数 。0 意味 着 每 个 值 单独 一 行 。” 大 于 0 的 数字 意味 着 "每 个 
值 单独 一 行 并且 使 用 这 个 数目 的 空格 来 缩 进 谋 套 的 数据 结构 。” 


是 结果 : 


youQlocalhost:-/diveintopython3/examples$ cat basic-pretty.json 


"published": true, 
"tags": [ 
"diveintopython", 
"docbook", 
"html" 
], 
"comments link": null, 
"id": 256, 
"title": "Dive into history, 2009 edition" 


} 


将 Python 数据 类 型 映射 到 JSON 


由 于 JSON 不 是 Python 特定 的 ， 对 应 到 Python 的 数据 类 型 的 时 候 有 很 多 不 匹配 。 有 一 些 仅 公 
是 名 字 不 同 ， 但 是 有 两 个 Python 数据 类 型 完全 缺少 。 看 看 你 能 能 把 它们 指出 来 : 


笔记 JSON Python 3 
object dictionary 
array list 
string string 
integer integer 
real number float 
* true True 
* false False 
* null [None] (native-datatypes.htmlénone) 
所 有 的 JSON 值 都 是 大 小 写 敏感 的 。 


注意 到 什么 被 遗漏 了 吗 ? 元 组 和 & 字 节 串 (bytes) ! JSON 有 数组 类 型 ，json 模块 将 其 映射 
到 Python 的 列表 , 但 是 它 没有 一 个 单独 的 类 型 对 应 “冻结 数组 (frozen arrays)”( 元 组 )。 而 且 尽 
E JSON 非常 好 的 支持 字符 串 ， 但 是 它 没有 对 bytes 对 象 或 字 节 数组 的 支持 。 


序列 化 JSON 不 支持 的 数据 类 型 


即使 JSON 没 有 内 建 的 字 节 流 支 持 , 并 不 意味 着 你 不 能 序列 化 bytes 对 象 。 json 模块 提供 了 
编 解码 未 知 数据 类 型 的 扩展 接口 。(' 未 知 "的 意思 是 季 JSON 没 有 定义 "。 很 显然 json 模块 认识 
字 节 数组 , 但 是 它 被 JSON 规 范 的 限制 束 线 住 了 。) 如 果 你 希望 编码 字 节 串 或 者 其 它 JSON 没 有 
原生 支持 的 数据 类 型 ， 你 需要 给 这 些 类 型 提供 定制 的 编码 和 解码 器 。 


>>> shell 
1 


['comments link': None, 
'internal id': b'NXxDENXDBNXxBANXF8', 
'title': 'Dive into history, 2009 edition', 
'tags': ('diveintopython', 'docbook', 'html'), 
'article link': 'http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edit 
'published date': time.struct time(tm year-2009, tm mon-3, tm mday-27, tm hour-22, tm mi 
'published': True} 

>>> import json 


Traceback (most recent call last): 
File "«stdin»", line 5, in «module» 
File "C:NPython31MlibNjsonN init .py", line 178, in dump 
for chunk in iterable: 
File "C:NPython31MlibNjsonNencoder.py", line 408, in  iterencode 
for chunk in iterencode dict(o, current indent level): 
File "C:NPython31MlibNjsonNencoder.py", line 382, in iterencode dict 
for chunk in chunks: 
File "C:NPython31MlibNjsonNencoder.py", line 416, in iterencode 
o = default(o) 
File "C:\Python31\lib\json\encoder.py", line 170, in default 
raise TypeError(repr(o) + " is not JSON serializable") 
<mark>TypeError: b'\xDE\xD5\xB4\xF8' is not JSON serializable</mark> 


图 Eee 


1. 好 的 , 是 时 间 再 看 看 entry 数据 结构 了 。 它 包含 了 所 有 的 东西 : 布尔 值 ， None 值 ， 字 符 
串 ， 字 符 串 元 组 ，bytes 对 象 , 以 及 time 结构 体 。 

2， 我 知道 我 已 经 说 过 了 ， 但 是 这 值得 再 重复 一 次 : JSON 是 一 个 基于 文本 的 格式 。 总 是 应 
使 用 UTF-8 字 符 编码 以 文本 模式 打开 JSON 文 件 。 

3， 嗯 ， 这 可 不 好 。 发 生 什 么 了 ? 





情况 是 这 样 的 : json.dump() 函数 试图 序列 化 bytes 对 象 b'\xpE\xp5\xB4\xF8' ， 但 是 它 失败 
了 ， 原 因 是 JSON 不 支持 bytes 对 象 。 然 而 , 如 果 保 存 字 节 串 对 你 来 说 很 重要 ， 你 可 以 定义 自 
己 的 "迷你 序列 化 格式 。” 


1. 为 了 给 一 个 JSON 没 有 原生 支持 的 数据 类 型 定义 你 自己 的 “迷你 序列 化 格式 ”, 只 要 定义 一 个 
接受 一 个 Python 对 象 为 参数 的 函数 。 这 个 对 象 将 会 是 json. dump() KADEA CEP PIE 
的 实际 对 象 一 这 个 例子 里 是 bytes ”对象 b'\xDE\xD5\xB4\xF8' o 

2， 你 的 自 定 义 序列 化 函数 应 该 检查 json.dump() 画 数 传 给 它 的 对 象 的 类 型 。 当 你 的 函数 只 序 
列 化 一 个 类 型 的 时 候 这 不 是 必须 的 ， 但 是 它 使 你 的 函数 的 履 盖 的 内 容 清楚 明白 ， 并 且 在 
你 需要 序列 化 更 多 类 型 的 时 候 更 容易 扩展 。 

3. 在 这 个 例子 里 面 ， 我 将 bytes 对 象 转 换 成 字典 。 . class . 键 持 有 原始 的 数据 类 型 (以 字 
符 串 的 形式 ，'bytes' ) 而 _value 键 持 有 实际 的 数据 。 当 然 它 不 能 是 bytes 对 象 ; 大 
体 的 想法 是 将 其 转换 成 某 些 可 以 被 JSON 序 列 化 的 东西 | bytes 对 象 就 是 一 个 范围 在 0 
255 的 整数 的 序列 。 我 们 可 以 使 用 list() KAUF bytes 对 象 转换 成 整数 列表 。 所 
以 b'\xDE\xD5\xB4\xF8' 变 成 [222，213，180，248] . ( 算 一 下 ! 这 是 对 的 ! 16 进 制 的 字 节 
\xpE 是 十 进 制 的 222，\xp5 是 213, 以 此 类 推 。) 

4. 这 一 行 很 重要 。 你 序列 化 的 数据 结构 可 能 包含 JSON 内 建 的 可 序列 化 类 型 和 你 的 定制 序列 
化 器 支持 的 类 型 之 外 的 东西 。 在 这 种 情况 下 ， 你 的 定制 序列 化 器 抛 出 一 个 TypeError ， 


那样 json.dump() 本 数 就 可 以 知道 首 你 的 定制 序列 化 函数 不 认识 该 类 型 。 


就 这 么 多 ; 你 不 需要 其 它 的 东西 。 特 别 是 , 这 个 定制 序列 化 函数 返回 Python 字典 ， 不 是 字符 
FR, TAE 己 做 所 有 序列 化 到 JSON 的 工作 ; 你 仅仅 在 做 转换 成 被 支持 的 类 型 那 部 分 工 
VE, json.dump() 画 数 做 剩 下 的 事情 。 


>>> shell 
1 


Traceback (most recent call last): 

File "«stdin»", line 9, in «module» 
json.dump(entry, f, default-customserializer.to json) 

File "C:NPython31MlibNjsonN init .py", line 178, in dump 
for chunk in iterable: 

File "C:NPython31MlibNjsonNencoder.py", line 408, in  iterencode 
for chunk in iterencode dict(o, current indent level): 

File "C:NPython31MlibNjsonNencoder.py", line 382, in iterencode dict 
for chunk in chunks: 

File "C:NPython31MlibNjsonNencoder.py", line 416, in iterencode 
o = default(o) 

File "/Users/pilgrim/diveintopython3/examples/customserializer.py", line 12, in to_json 


TypeError: time.struct_time(tm_year=2009, tm_mon=3, tm_mday=27, tm_hour=22, tm_min=20, tm 
El H 5 


1. customserializer 模块 是 你 在 前 一 个 例子 中 定义 to — 函数 的 地 方 。 

2. 文本 模式 , UTF-8 编码 , yadda yadda。( 你 很 可 能 会 忘记 这 一 点 ! 我 就 忘记 过 好 几 次 ! 事情 
一 切 正常 直到 它 失败 的 时 刻 , 而 它 的 失败 很 伟人 瞩目 。 

3， 这 是 重点 : 为 了 将 定制 转换 画 数 钧 子 戏 入 json.dump() KA, 只 要 将 你 的 函数 
以 default 参数 传人 json.dump() ESI, (75 2, Python 里 一 切 皆 对 象 由 

4. 好 吧 , 实际 上 还 是 不 能 工作 。 但 是 看 一 下 异常 。 json.dump() 画 数 不 再 抱怨 无 法 序列 
化 bytes 对 象 了 。 现 在 它 在 抱怨 另 一 个 完全 不 同 的 对 象 : time.struct_time 对 象 。 





管 得 到 另 一 个 不 同 的 异常 看 起 来 不 是 什么 进步 , 但 它 确实 是 个 进步 ! 再 调整 一 下 就 可 以 解决 
PE 


import time 
def to json(python object): 
if isinstance(python object, bytes): 
return (' class ': 'bytes', 


' value ': list(python object)? 
raise TypeError(repr(python object) * ' is not JSON serializable') 


1. 在 现存 的 customserializer.to json() 西数 里 面 , 我 们 加 入 了 Python 对 象 ( json.dump() 
处 理 不 了 的 那些 ) 是 不 是 time.struct_time 的 判断 。 

2. 如 果 是 的 ， 我 们 做 一 些 同 处 理 bytes 对 象 时 类 似 的 事情 来 转换 : 将 time.struct_time 结 
构 转 化 成 一 个 只 包含 JSON 可 序列 化 值 的 字典 。 在 这 个 例子 里 , 最 简单 的 将 日 期 时 间 转 换 
成 JSON 可 序列 化 值 的 方法 是 使 用 time.asctime() 函数 将 其 转换 成 字符 
FB, time.asctime() PXZXURPXE EB time.struct time 转换 成 字符 串 


'Fri Mar 27 22:20:42 2009' , 
有 了 两 个 定制 的 转换 , 整个 entry 数据 结构 序列 化 到 JSON 应 该 没有 进一步 的 问题 了 。 


>>> shell 

工 

>>> with open('entry.json', 'w', encoding-'utf-8') as f: 
json.dump(entry, f, default-customserializer.to json) 


youQlocalhost:-/diveintopython3/examples$ ls -1 example.json 

-rw-r--r-- 1 you you 391 Aug 3 13:34 entry.json 
youQlocalhost:-/diveintopython3/examples$ cat example.json 

("published date": (" class ^": "time.asctime", " value ^": "Fri Mar 27 22:20:42 2009") 
"comments link": null, "internal id": (" class ^": "bytes", " value ^": [222, 213, 180, 
"tags": ["diveintopython", "docbook", "html"], "title": "pive into history, 2009 edition" 
"article link": "http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-editi 
"published": true} 


Bro — ——Á—————  üDÓ-ti(1Ó 


从 JSON 文 件 加 载 数据 


类 似 pickle 模块 ， json 模块 有 一 个 load() 函数 接受 一 个 流 对 象 ， 从 中 读 取 JSON 编 码 过 
的 数据 , 并 且 创建 该 JSON 数 据 结构 的 Python 对 象 的 镜像 。 





>>> shell 
2 


>>> entry 
Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
NameError: name 'entry' is not defined 
>>> import json 
>>> with open('entry.json', 'r', encoding-'utf-8') as f: 


['comments link': None, 
'internal id': [(' class ': 'bytes', ' value ': [222, 213, 180, 248]}, 
'title': 'Dive into history, 2009 edition', 
'tags': ['diveintopython', 'docbook', 'html'], 
'article link': 'http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edit 
'published date': (' class ': 'time.asctime', ' value ': 'Fri Mar 27 22:20:42 2009') 
'published': True} 


ss== Lu 11.1 1.1. — D$ 1] 





1. 为 了 演示 目的 ， 切 换 到 Python Shell 22 并 且 删 除 在 这 一 章 前 面 使 用 pickle 模块 创建 
的 entry 数据 结构 。 

2. 最 简单 的 情况 下 ， json.load() WAF pickle.load() 画 数 的 结果 一 模 一 样 。 你 传 入 一 个 
流 对 象 ， 它 返回 一 个 新 的 Python 对 象 。 

3. 有 好 消息 也 有 坏 消 息 。 好 消息 先 来 : json.load() 画 数 成 功 的 读 取 了 你 在 Python Shell #1 
中 创建 的 entry.json 文件 并 且 生成 了 一 个 包含 那些 数据 的 新 的 Python 对 象 。 接 着 是 坏 消 
息 : 它 没 有 重建 原始 的 entry 数据 结构 。 'internal id' 和 ' published date' 这 两 个 值 


被 重建 为 字典 一 具体 来 说 , 你 在 to_json() 转换 画 数 中 使 用 JSON 兼 容 的 值 创建 的 字典 。 


json.load() 并 不 知道 你 可 能 传 给 json.dump() 的 任何 转换 函数 的 任何 信息 。 你 需要 的 
是 to json() 画 数 的 逆 范 数 一 一 个 接受 定制 转换 出 的 JSON 对 象 并 将 其 转换 回 原始 的 Python 
数据 类 型 。 


# add this to customserializer.py 
if json object[' class '] == 'time.asctime': 
if json object[' class '] -- 'bytes': 


return json object 


1. 这 男 数 也 同样 接受 一 个 参数 返回 一 个 值 。 但 是 参数 不 是 字符 串 ， 而 是 一 个 Python 对 象 一 
反 序 列 化 一 个 JSON 编 码 的 字符 串 为 Python 的 结果 。 

2. 你 只 需要 检查 这 个 对 象 是 否 包 含 to json() E25 6) SER ' class ' 键 。 如 果 是 
B9, ' class ' 键 对 应 的 值 将 告诉 你 如 何 将 值 解码 成 原来 的 Python 数据 类 型 。 

3. 为 了 解码 由 time.asctime() 本 数 返 回 的 字符 串 ， 你 要 使 用 time.strptime() KMŽ 3X T ER 
数 接受 一 个 格式 化 过 的 时 间 字 符 串 (格式 可 以 自 定义 ， 但 默认 值 同 time.asctime() 西数 的 
默认 值 相同 ) 并 且 返 回 time.struct_time . 

4. 为 了 将 整数 列表 转换 回 bytes 对 象 , 你 可 以 使 用 bytes KZ. 


就 是 这 样 ; to_json() 画 数 处 理 了 两 种 数据 类 型 ， 现 在 这 两 个 数据 类 型 也 在 from json() Ezi 
HAST. RH 


>>> shell 

2 

>>> import customserializer 

>>> with open('entry.json', 'r', encoding-'utf-8') as f: 


['comments link': None, 
'internal id': b'NXxDENXDB5NXxBANXF8', 
'title': 'Dive into history, 2009 edition', 
'tags': ['diveintopython', 'docbook', 'html'], 
'article link': 'http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edit 
'published date': time.struct time(tm year-2009, tm mon-3, tm mday-27, tm hour-22, tm mi 
'published': Truej 


Eee 
1. 为 了 将 from json() KAERA UI: Fe 2b E, 把 它 作为 object_hook 参数 传人 
到 json.load() 本 数 中 。 接 受 函 数 作为 参数 的 函数 ; 真 方便 ! 


2. entry 数据 结构 现在 有 一 个 值 为 bytes 对 象 的 'internal_id' 键 。 它 也 包含 一 
个 'published_date' $ë, 其 值 为 time.struct_time 对 象 。 





然而 ， 还 有 最 后 一 个 缺陷 。 


>>> shell 
工 
>>> import customserializer 


>>> with open('entry.json', 'r', encoding-'utf-8') as f: 
E entry2 = json.load(f, object_hook=customserializer.from json) 


False 
('diveintopython', 'docbook', 'html') 


['diveintopython', 'docbook', 'html'] 


1， 即 使 在 序列 化 过 程 中 加 入 了 to json() 钩子 函数 , 也 在 反 序 列 化 过 程 中 加 
入 from json() FRR, 我 们 仍然 没有 重新 创建 原始 数据 结构 的 完美 复制 品 。 为 什么 没 
有 ? 

2. 在 原始 的 entry 数据 结构 中 ，'tags' 键 的 值 为 一 个 三 个 字符 串 组 成 的 元 组 。 

3. 但 是 重 现 创 建 的 entry2 数据 结构 中 ，'tags' 键 的 值 是 一 个 三 个 字符 串 组 成 的 列表 。 
JSON 并 不 区 分 元 组 和 列表 ; 它 只 有 一 个 类 似 列 表 的 数据 类 型 ， 数 组 ， 并 且 json 模块 在 
序列 化 过 程 中 会 安静 的 将 元 组 和 列表 两 个 都 转换 成 JSON 数组 。 大 多 数 情况 下 ， 你 可 以 
忽略 元 组 和 列表 的 区 别 ， 但 是 在 使 用 json 模块 时 应 记得 有 这 人 么 一 回 使 。 


进一步 阅读 


全 很 多 关于 pickle 模块 的 文章 提 到 了 cPickle 。 在 Python 2 中 ，pickle 模块 有 两 个 实 
m, 一 个 由 纯 Python 写 的 而 另 一 个 用 C 写 的 (但 仍然 可 以 在 Python 中 调用 )。 在 Python 3 中 ， 
这 两 个 模块 已 经 合并 ， 所 以 你 总 是 是 简单 的 import pickle 就 可 以 。 你 可 能 会 发 现 这 些 文章 
很 有 用 ， 但 是 你 应 该 忽略 已 过 时 的 关于 的 cpickle 的 信息 . 


使 用 pickle 模块 打包 : 


e pickle module 

e pickle and cPickle 一 Python object serialization 
e Using pickle 

e Python persistence management 


使 用 JSON 和 json 模块 : 


èe json — JavaScript Object Notation Serializer 
e JSON encoding and ecoding with custom objects in Python 


扩展 打包 : 


e Pickling class instances 
e Persistence of external objects 
e Handling stateful objects 


Chapter 14 HTTP Web 服务 


" A ruffled mind makes a restless pillow. " 一 Charlotte Brontë 


VK AN 


简单 地 讲 ，HTTP web 服务 是 指 以 编程 的 方式 直接 使 用 HTTP. 操作 从 远程 服务 器 发 送 和 接收 
数据 。 如 果 你 要 从 服务 器 获取 数据 ， 使 用 HTTP cer ; 如 果 你 要 向 服务 器 发 送 新 数据 ， 使 用 
HTTP post . 一 些 更 高 级 的 HTTP Web 服务 APl 也 人 允许 使 用 HTTP eur 和 HTTP pELETE 来 
创建 、 修 改 和 删除 数据 。 换 名 话说 ，HTTP 协议 中 的 “verbs (动作 ( cer , Post, Put 和 
DELETE ) 可 以 直接 对 应 到 应 用 层 的 操作 : 获取， 创建， 修改， 删除 数据 。 


这 个 方法 主要 的 优点 是 简单 , 它 的 简单 证 明 是 受 欢迎 的 。 数 据 一 通常 是 XML 或 JSON 一 可 以 
事先 创建 好 并 静态 的 存储 下 来 ， 或 者 由 服务 器 端 脚本 动态 生成 , 并 且 所 有 主要 的 编程 语言 ( 当 
然 包 括 Python) 都 包含 HTTP 库 用 于 下 载 数 据 。 调 试 也 很 方便 ; 由 于 HTTP web 服务 中 每 一 个 
资源 都 有 一 个 唯一 的 地 址 (以 URL 的 形式 存在 ), 你 可 以 在 浏览 器 中 加 载 它 并 且 立 即 看 到 原始 的 
数据 . 


HTTP web 服务 示例 : 


e Google Data API 允许 你 同 很 多 类 型 的 Google 服务 交互 , 包括 Blogger 和 YouTube, 
e Flickr Services 人 允许 你 向 Flickr 下 载 和 上 传 图 片 。 

e Twitter API 允许 你 在 Twitter 发 布 状态 更 新 。 

e ... 以 及 更 多 


Python 3 带 有 两 个 库 用 于 和 HTTP web 服务 交互 : 


e http.client 是 实现 了 RFC 2616, HTTP 协议 的 底层 库 . 

e urllib.request 建立 在 http.client 之 上 一 个 抽象 屋 。 它 为 访问 HTTP 和 FTP 服务 器 提 
供 了 一 个 标准 的 API， 可 以 自动 跟随 HTTP 重 定 向 ， 并且 人 处 理 了 一 些 常见 形式 的 HTTP 认 
证 。 


那么 ， 你 应 该 用 哪个 呢 ? 两 个 都 不 用 。 取 而 代 之 , 你 应 该 使 用 httplib2 ,一 个 第 三 方 的 开源 库 ， 
它 比 http.client 更 完整 的 实现 了 HTTP 协 议 ， 同 时 比 urllib.request 提供 了 更 好 的 抽象 。 


要 理解 为 什么 httplib2 是 正确 的 选择 ， 你 必须 先 了 解 HTTP。 


HTTP 的 特性 


有 五 个 重要 的 特性 所 有 的 HTTP 客 户 端 都 应 该 支持 。 


缓存 


关于 web 服 务 最 需要 了 解 的 一 点 是 网 络 访问 是 极端 昂贵 的 。 我 并 不 是 指 “ 美 元 "和 “ 美 分 ”的 昂贵 
(虽然 带宽 确实 不 是 免费 的 )。 我 的 意思 是 需要 一 个 非常 长 的 时 间 来 打开 一 个 连接 ， 发 送 请 求 ， 
并 从 远程 服务 器 响应 。 即使 在 最 快 的 宽带 连接 上 ， 延 迟 (从 发 送 一 个 请 求 到 开始 在 响应 中 获 
得 数据 所 花费 的 时 间 ) 仍然 高 于 您 的 预期 。 路 由 器 的 行为 不 端 ， 被 去 奔 的 数据 包 ， 中 间 代 理 
服务 器 被 攻击 一 在 公共 互联 网 上 没有 沉闷 的 时 刻 (never a dull moment)， 并 且 你 对 此 无 能 区 
力 。 


Cache-Control: max-age 的 意思 是 “一 个 星期 以 内 都 不 要 来 烦 我 。 " 


HTTP 在 设计 时 就 考虑 到 了 缓存 。 有 这 样 一 类 的 设备 (叫做 "缓存 代理 服务 器 ") ， 它 们 的 唯一 的 
任务 是 就 是 呆 在 你 和 世界 的 其 他 部 分 之 间 来 最 小 化 网 络 请 求 。 你 的 公司 或 ISP 几乎 肯定 维护 着 
这 样 的 缓存 代理 服务 器 , 只 不 过 你 没有 意识 到 而 已 。 它们 的 能 够 起 到 作用 是 因为 缓存 是 内 建 在 
HTTP 协 议 中 的 。 


这 里 有 一 个 缓存 如 何 工作 的 具体 例子 。 你 通过 浏览 器 访问 diveintomark.org 。 该 网 页 包含 一 
个 背景 图 片 ， wearehugh.comm.jpg 。 当 你 的 浏览 器 下 载 那 张 图 片 时 ,服务 器 的 返回 包含 了 下 
面 的 HTTP 头 : 


HTTP/1.1 200 OK 

Date: Sun, 31 May 2009 17:14:04 GMT 

Server: Apache 

Last-Modified: Fri, 22 Aug 2008 04:28:16 GMT 

ETag: "3075-ddc8d800" 

Accept-Ranges: bytes 

Content-Length: 12405 

«mark»Cache-Control: max-age-31536000, public«c/mark» 
«mark»-Expires: Mon, 31 May 2010 17:14:04 GMT«/mark» 
Connection: close 

Content-Type: image/jpeg 


Cache-Control 和 Expires 头 告诉 浏览 器 (以 及 任何 多 于 你 和 服务 器 之 间 的 缓存 代理 服务 器 ) 
这 张 图 片 可 以 缓存 长 达 一 年 。 一 年 / 如果 在 明年 ， 你 访问 另外 一 个 也 包含 这 张 图 片 的 页 面 ， 你 
的 浏览 器 会 从 缓存 中 加 载 这 样 图 片 而 不 会 产生 任何 网 络 活动 . 


等 一 下 ， 情 况 实 际 上 更 好 。 比 方 说 ， 你 的 浏览 器 由 于 某 些 原因 将 图 片 从 本 地 缓存 中 移 除 了 。 
可 能 是 因为 没有 磁盘 空间 了 或 者 是 你 清空 了 缓存 ， 不 管 是 什么 理由 。 然 而 HTTP 头 告诉 说 这 个 
数据 可 以 被 公共 缓存 代理 服务 器 缓存 ( cache-control 头 中 public 关键 字 说 明 这 一 点 )。 缓 存 
代理 服务 器 有 非常 庞大 的 存储 空间 ， 很 可 能 比 你 本 地 浏览 器 所 分 配 的 大 的 多 。 


如 果 你 的 公司 或 者 ISP 维 护 着 这 样 一 个 缓存 代理 服务 器 ， 它 很 可 能 仍然 有 这 张 图 片 的 缓存 。 当 
你 再 次 访问 diveintomark.org Hd, 你 的 浏览 器 会 在 本 地 缓存 中 查找 这 张 图 片 , 它 没 有 找到 , 所 
以 它 发 出 一 个 网 络 请 求 试图 从 远程 服务 器 下 载 这 张 图 片 。 但 是 由 于 缓存 代理 服务 器 仍然 有 这 
张 图 片 的 一 个 副本 ， 它 将 截取 这 个 请 求 并 从 它 的 缓存 中 返回 这 张 图 片 。 这 意味 这 你 的 请 求 不 
会 到 达 远 程 服务 器 ; 实际 上 , 它 根 本 没有 离开 你 公司 的 网 络 。 这 意味 着 更 快 的 下 载 (网 络 跃 点 变 
DT) 和 节省 你 公司 的 花费 (从 外 部 下 载 的 数据 变 少 了 )。 


只 有 当 每 一 个 角色 都 做 按 协议 来 做 时 ，HTTP 缓 存 才 能 发 挥 作用 。 一 方面 ， 服 务 器 需要 在 响应 
中 发 送 正确 的 头 。 另 一 方面 ， 客 户 端 需要 在 第 二 次 请 求 同 祥 的 数据 前 理解 并 尊重 这 些 响 应 
X. 代理 服务 器 不 是 灵丹妙药 ， 它 们 只 会 在 客户 端 和 服务 器 允许 的 情况 下 尽 可 能 的 聪明 。 


Python 的 HTTP 库 不 支持 缓存 ， 而 httplib2 支持 。 


最 后 修改 时 间 的 检查 


有 一 些 数据 从 不 改变 ， 而 另外 一 些 则 总 是 在 变化 。 介 于 两 者 之 间 ， 在 很 多 情况 下 数据 还 没 变 

化 但 是 将 来 可 能 会 变化 。 CNN.com 的 供稿 每 隔 几 分 钟 就 会 更 新 ， 但 我 的 博客 的 供稿 可 能 几 天 
或 者 几 星 期 才 会 更 新 一 次 。 在 后 面 一 种 情况 的 时 候 ， 我 不 希望 告诉 客户 端 缓存 我 的 供稿 几 星 

期 ， 因 为 当 我 真 的 发 表 了 点 东西 的 时 候 ， 人 们 可 能 会 几 个 星期 后 才能 阅读 到 (由 于 他 们 遵循 我 
的 cache 头 一 " 几 个 星期 内 都 不 用 检查 这 个 供稿 ")。 另 一 方面 ， 如 果 供 稿 没 有 改变 我 也 不 希望 

客户 端 每 隔 1 小 时 就 来 检查 一 下 ! 


304: Not Modified 的 意思 是 “不 同 的 日 子 ， 同 样 的 数据 (same shit, different day), " 


HTTP 对 于 这 个 问题 也 有 一 个 解决 方案 。 当 你 第 一 次 请 求 数据 时 ， 服 务 器 返回 一 
Ñ Last-Modified 头 。 顾名思义 : 数据 最 后 修改 的 时 间 。 diveintomark.org 引用 的 这 张 背 景 
图 片 包含 一 个 Last-Modified 头 。 


HTTP/1.1 200 OK 

Date: Sun, 31 May 2009 17:14:04 GMT 
Server: Apache 

«mark»Last-Modified: Fri, 22 Aug 2008 04:28:16 GMT«/mark» 
ETag: "3075-ddc8d800" 

Accept-Ranges: bytes 

Content-Length: 12405 

Cache-Control: max-age-31536000, public 
Expires: Mon, 31 May 2010 17:14:04 GMT 
Connection: close 

Content-Type: image/jpeg 


如 果 第 二 (第 三 ， 第 四 ) 次 请 求 同 样 一 个 资源 ， 你 可 以 在 你 的 请 求 中 发 送 一 

个 If-Modified-since 头 ， 其 值 为 你 上 次 从 服务 器 返回 的 时 间 。 如 果 从 那 时 开始 ， 数 据 已 经 发 
成 过 变化 ， 服 务 器 会 忽略 If-Modified-since 头 并 返回 新 数据 和 200 状态 码 给 你 。 否 则 的 话 ， 
服务 器 将 发 回 一 个 特殊 的 HTTP 304 状态 码 , 它 的 含义 是 “从 上 次 请 求 到 现在 数据 没有 发 生 过 
变化 .” 你 可 以 在 命 合 行 上 使 用 curl 来 测试 : 


you@localhost:~$ curl -I <mark>-H "If-Modified-Since: Fri, 22 Aug 2008 04:28:16 GMT"</mar 
HTTP/1.1 304 Not Modified 

Date: Sun, 31 May 2009 18:04:39 GMT 

Server: Apache 

Connection: close 

ETag: "3075-ddc8d800" 

Expires: Mon, 31 May 2010 18:04:39 GMT 

Cache-Control: max-age-31536000, public 








为 什么 这 是 一 个 进步 ? 因为 服务 器 发 送 304 时 , 它 没 有 重新 发 送 数据 。 你 得 到 的 仅仅 是 状态 
码 。 即 使 你 的 缓存 副本 已 经 过 期 ， 最 后 修改 时 间 检 查 保 证 你 不 会 在 数据 没有 变化 的 情况 下 重 
新 下 载 它 。 (额外 的 好 处 是 ， 这 个 364 响应 同样 也 包含 了 缓存 头 。 代 理 服务 器 会 在 数据 已 
经 “过 期 "的 情况 下 仍然 保留 数据 的 副本 ; 希望 数据 实际 上 还 没有 改变 ， 并 且 下 一 个 请 求 

以 3e4 状态 码 返 回 ， 并 更 新 缓存 信息 。 ) 


Python 的 HTTP 库 不 支持 最 后 修改 时 间 检 查 ， 而 httplib2 支持 。 


ETags 


ETag 是 另 一 个 和 最 后 修改 时 间 检 查 达到 同样 目的 的 方法 。 使 用 ETag 时 ， 服 务 器 在 返回 数据 的 
同时 在 ETag 头 里 返回 一 个 哈 希 码 (如 何 生成 哈 希 码 完全 取决 于 服务 器 ， 唯 一 的 要 求 是 数据 改 
变 时 哈 希 码 也 要 改变 ) diveintomark.org 引用 的 背景 图 片 包 含有 ETag X. 


HTTP/1.1 200 OK 

Date: Sun, 31 May 2009 17:14:04 GMT 
Server: Apache 

Last-Modified: Fri, 22 Aug 2008 04:28:16 GMT 
«mark-ETag: "3075-ddc8d800"«/mark- 
Accept-Ranges: bytes 

Content-Length: 12405 

Cache-Control: max-age-31536000, public 
Expires: Mon, 31 May 2010 17:14:04 GMT 
Connection: close 

Content-Type: image/jpeg 


ETag 的 意思 是 “太阳 底下 没有 什么 新 东西 。” 


当 你 再 次 请 求 同 样 的 数据 时 ， 你 在 If-None-Match 头 里 放 入 ETag 值 。 如 果 数 据 没 有 发 生 改 
变 ， 服 务 器 将 会 返回 304 状态 码 。 同 最 后 修改 时 间 检 查 一 样 ， 服 务 器 发 回 的 只 有 364 状态 
码 ， 不 会 再 一 次 给 你 发 送 同样 的 数据 。 通 过 在 请 求 中 包含 ETag 哈 希 码 ， 你 告诉 服务 器 如 果 哈 
希 值 匹配 就 不 需要 重新 发 送 同样 的 数据 了 ， 因 为 你 仍然 保留 着 上 次 收 到 的 数据 . 


再 一 次 使 用 curl : 


HTTP/1.1 304 Not Modified 

Date: Sun, 31 May 2009 18:04:39 GMT 
Server: Apache 

Connection: close 

ETag: "3075-ddc8d800" 

Expires: Mon, 31 May 2010 18:04:39 GMT 
Cache-Control: max-age-31536000, public 


1. ETag 一 般 使 用 引号 包围 , 但 是 引号 是 值 的 一 部 分 。 它 们 不 是 分 隔 符 ; ETag 头 里 面 唯一 的 
分 隔 符 是 ETag 和 "3675-ddc8d86e" 之 间 的 冒号 。 这 意味 着 你 也 需要 将 引号 放 
在 If-None-Match 头发 回 给 服务 器 。 


Python HTTP 库 不 支持 ETag， 而 httplib2 支持 . 


压缩 


当 我 们 谈论 HTTP web 服务 的 时 候 , 你 总 是 会 讨论 到 在 线路 上 来 回 运送 文本 数据 。 可 能 是 
XML， 也 可 能 是 JSON， 抑 或 仅仅 是 纯 文 本 。 不 管 是 什么 格式 ， 文 本 的 压缩 性 能 很 好 。XML 
章节 中 的 示例 供稿 在 没 压 缩 的 情况 下 是 3070 字 节 ， 然 而 在 gzip 压缩 后 只 有 941 字 节 。 仅 仅 是 
原始 大 小 的 30%! 


HTTP 支 持 若干 种 不 缩 算法 。 最 常见 的 两 种 是 gzip 和 deflate。 当 你 通过 HTTP 请 求 资源 时 ， 你 
可 以 要 求 服务 器 以 压缩 格式 返回 资源 。 你 在 请 求 中 包含 一 个 Accept-encoding 头 ， 里 面 列 出 了 
你 支持 的 压缩 算法 。 如 果 服 务 器 也 支持 其 中 的 某 一 种 算法 ， 它 就 会 返回 给 你 压缩 后 的 数据 ( 同 
时 通过 content-encoding 头 标识 它 使 用 的 算法 )。 接 下 来 的 事情 就 是 由 你 去 解压 数据 了 。 


Python 的 HTTP 库 不 支持 压缩 ， 但 httplib2 支持 。 


FEN 


好 的 URI 不 会 变化 ， 但 是 有 很 多 URI 并 没有 那么 好 。 网 站 可 能 会 重新 组 织 ， 页 面 移动 到 新 位 
E. 即使 是 web 服务 也 可 能 重新 安排 。 一 个 联合 供稿 http://example.com/index.xml 可 能 会 移 
动 到 http://example.com/xml/atom.xml 。 或 者 当 一 个 机 构 扩张 和 重组 的 时 候 ， 整 个 域名 都 可 能 


移动 ; http: //www.example.com/index.xml 变 成 http://server-farm-1.example.com/index.xml . 
Location 的 意思 是 “看 那 边 ” 


每 一 次 你 向 HTTP 服 务 器 请 求 资源 的 时 候 , 服务 器 都 会 在 响应 中 包含 一 个 状态 码 。 状态 
码 200 的 意思 是 一 切 正 常 ， 这 就 是 你 请 求 的 页 面 ; 状态 码 494 的 意思 是 找 不 到 页 面 ; (你 很 可 能 
在 浏览 网 页 的 时 候 碰 到 过 404)。300 系列 的 状态 码 意味 着 某 种 形式 的 重 定向 。 


HTTP 有 多 种 方法 表示 一 个 资源 已 经 被 移动 。 最 常见 两 个 技术 是 状态 码 302 和 301. 状态 

码 302 是 一 个 临时 重 定向 ; CARE, 资源 被 被 临时 从 这 里 移动 走 了 ; (并 且 临 时 地 址 

在 Location 头 里 面 给 出 )。 状 态 码 301 是 永久 重 定向 ; 它 意味 着 ， 资 源 被 永久 的 移动 了 ; (并 且 
在 Location 头 里 面 给 出 了 新 的 地 址 )。 如 果 你 得 到 362 状态 码 和 一 个 新 地 址 , HTTP 规 范 要 求 

你 访问 新 地 址 来 获得 你 要 的 资源 ， 但 是 下 次 你 要 访问 同样 的 资源 的 时 候 你 应 该 重新 尝试 旧 的 

地 址 。 但 是 如 果 你 得 到 soi 状态 码 和 新 地 址 , 你 从 今 以 后 都 应 该 使 用 新 的 地 址 。 


urllib.request 模块 在 从 HTTP 服 务 器 收 到 对 应 的 状态 码 的 时 候 会 自动 “跟随 " 重 定向 , 但 它 不 
会 告诉 你 它 这 么 干 了 。 你 最 后 得 到 了 你 请 求 的 数据 ， 但 是 你 永远 也 不 会 知道 下 层 的 库 友 好 的 
帮助 你 跟随 了 重 定向 。 结 果 是 ， 你 继续 访问 旧 的 地 址 ， 每 一 次 你 都 会 得 到 新 地 址 的 重 定向 ， 
每 一 次 urllib.request 模块 都 会 友好 的 帮 你 跟随 重 定向 。 换 句 话 说 ， 它 将 永久 重 定向 当成 临 
时 重 定向 来 处 理 。 这 意味 着 两 个 来 回 而 不 是 一 个 ， 这 对 你 和 服务 器 都 不 好 。 


httplib2 帮 你 处 理 了 永久 重 定向 。 它 不 仅 会 告诉 你 发 生 了 永久 重 定向 ， 而 且 它 会 在 本 地 记录 
这 些 重 定向 ， 并 且 在 发 送 请 求 前 自动 重 写 为 重 定向 后 的 URL。 


避免 通过 HTTP 重复 地 获取 数据 


我 们 来 举 个 例子 ， 你 想 要 通过 HTTP 下 载 一 个 资源 , 比如 说 一 个 Atom 供稿 。 作 为 一 个 供稿 , 你 
不 会 只 下 载 一 次 ， 你 会 一 次 又 一 次 的 下 载 它 。 (大 部 分 的 供稿 阅读 器 会 美 一 小 时 检查 一 次 更 
新 。) 让 我 们 先 用 最 粗糙 和 最 快 的 方法 来 实现 它 ， 接 着 再 来 看 看 怎样 改进 。 


>>> import urllib.request 

>>> a url = 'http://diveintopython3.org/examples/feed.xml' 

«class 'bytes'» 

>>> print(data) 

<?xml version-'1.0' encoding-'utf-8'?» 

«feed xmlns-z'http://www.w3.0rg/2005/Atom' xml:lang-'en'» 
«title»dive into mark«/title- 
«subtitle»currently between addictionsc/subtitle- 
«id»tag:diveintomark.org,2001-07-29:/«/id» 
«updated22009-03-27T21:56:07Z«/updated» 
«link rel-'alternate' type-'text/html' hrefz'http://diveintomark.org/'/» 


1， 在 Python 中 通过 HTTP 下 载 东 西 是 非常 简单 的 ; 实际 上 ， 只 需要 一 行 代 
码 。 urllib.request 模块 有 一 个 方便 的 函数 urlopen() ， 它 接受 你 所 要 获取 的 页 面 地 
址 ， 然 后 返回 一 个 类 文件 对 象 ， 您 只 要 调用 它 的 read() 方法 就 可 以 获得 网 页 的 全 部 内 
容 。 没 有 比 这 更 简单 的 了 。 
2. urlopen().read() 方法 总 是 返回 bytes 对 象 ,而 不 是 字符 串 。 记 住 字 节 仅仅 是 字 节 ， 字符 
只 是 一 种 抽象 。 HTTP 服务 器 不 关心 抽象 的 东西 。 如 果 你 请 求 一 个 资源 ， 你 得 到 字 节 。 
如 果 你 需要 一 个 字符 串 ， 你 需要 确定 字符 编码 ,并 显 式 的 将 其 转化 成 字符 串 。 
那么 ， 有 什么 问题 呢 ?作为 开发 或 测试 中 的 快速 试验 ， 没 有 什么 不 妥 的 地 方 。 我 总 是 这 么 
干 。 我 需要 供稿 的 内 容 ， 然 后 我 拿 到 了 它 。 相 同 的 技术 对 任何 网 页 都 有 效 。 但 一 旦 你 考虑 到 
你 需要 定期 访问 Web 服 务 的 时 候 ，( 例 如 每 隔 1 小 时 请 求 一 下 这 个 供稿 ), 这 样 的 做 法 就 显得 很 
低 效 和 粗暴 了 。 


线路 上 是 什么 ? 


为 了 说 明 为 什么 这 是 低 效 和 粗暴 的 ， 我 们 来 打开 Python 的 HTTP 亩 的 调试 功能 ， 看 看 什么 东西 
被 发 送 到 了 线路 上 ( 即 网 络 上 )， 


>>> from http.client import HTTPConnection 
>>> from urllib.request import urlopen 
Connection: close 


reply: 'HTTP/1.1 200 OK' 
„further debugging information omitted... 


1. 正如 我 在 这 章 开 头 提 到 的 ， urllip.,request 依赖 另 一 个 标准 Python 库 ，http.client o 
正常 情况 下 你 不 需要 直接 接触 http.client o ( urllib.request 模块 会 自 动 导 人 它 。 ) 我 
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们 在 这 里 导入 它 是 为 了 让 我 们 能 够 打开 HTTPConnection 类 的 调试 开关 ， urllib.request 
使 用 这 个 类 去 连接 HTTP 服 务 器 。 


.调式 开关 已 经 打开 ， 有 关 HTTP 请 求 和 响应 的 信息 会 实时 的 打印 出 来 。 正 如 你 所 看 见 的 ， 


当 你 请 求 Atom 供稿 时 ， urllib.request 模块 向 服务 器 发 送 了 5 行 数据 。 


. 第 一 行 指定 了 你 使 用 的 HTTP 方 法 和 你 访问 的 资源 的 路 径 ( 不 包含 域名 )。 

.第 二 行 指定 了 你 请 求 的 供稿 所 在 的 域名 。 

.第 三 行 指定 客户 端 支持 的 压缩 算法 。 我 之 前 提 到 过 ， urllib.request 默认 不 支持 压缩 。 
.第 四 行 说 明了 发 送 请 求 的 库 的 名 字 。 默 认 情 况 下 是 Python-urllib 加 上 版 本 


号 。 urllib.request 和 httplib2 都 支持 更 改 用 户 代 理 ， 直接 向 请 求 里 面 加 一 
个 user-agent 头 就 可 以 了 (默认 值 会 被 覆盖 ). 


我 们 下 载 了 3070 字 节 ， 但 其 实 我 们 可 以 只 下 载 941 个 字 节 . 


现在 让 我 们 来 看 看 服务 器 返回 了 什么 。 


# continued from previous example 


Server: Apache 


Accept-Ranges: bytes 


Expires: Mon, 01 Jun 2009 19:23:06 GMT 
Vary: Accept-Encoding 

Connection: close 

Content-Type: application/xml 


>>> len(data) 
3070 


1. 


a 天 wD 


urllib.request.urlopen() EXZAGE[BIB] response 对 象 包含 了 服务 器 返回 的 所 有 HTTP 头 。 
它 也 提供 了 下 载 实际 数据 的 方法 ， 这 个 我 们 等 一 下 讲 。 
服务 器 提供 了 它 处 理 你 的 请 求 时 的 时 间 。 


， 这 个 响应 包含 了 Last-Modified 头 。 
. 这 个 响应 包含 了 ETag 头 。 
.数据 的 长 度 是 3070 字 节 。 请 注意 什么 东西 没有 出 现在 这 里 : content-encoding 头 。 你 的 请 


求 表 示 你 只 接受 未 压缩 的 数据 ，( Accept-encoding: identity ), 然后 当然 ， 响 应 确实 包含 
未 压缩 的 数据 。 
个 响应 包含 缓存 关 ， 表 明 这 个 供稿 可 以 缓存 长 达 24 小 时 。(86400 $5). 


这 
7. 最 后 ， 通 过 调用 response.read() 下 载 实际 的 数据 . 你 从 1en() 画 数 可 以 看 出 ， 一 下 子 就 


把 整个 3070 个 字 节 下 载 下 来 了 。 


正如 你 所 看 见 的 ， 这 个 代码 已 经 是 低 效 的 了 ; 它 请 求 (并 接收 ) 了 未 压缩 的 数据 。 我 知道 服务 器 
实际 上 是 支持 gzip 压缩 的 , 但 HTTP 压缩 是 一 个 可 选项 。 我 们 不 主动 要 求 ， 服 务 器 不 会 执行 。 
这 意味 这 在 可 以 只 下 载 941 字 节 的 情况 下 我 们 下 载 了 3070 个 字 节 。Bad dog, no biscuit. 


别 急 ， 还 有 更 糟糕 的 。 为 了 说 明 这 段 代 码 有 多 人 么 的 低 效 ， 让 我 再 次 请 求 一 下 同一 个 供稿 。 


# continued from the previous example 

>>> response2 = urlopen('http://diveintopython3.org/examples/feed.xml') 
send: b'GET /examples/feed.xml HTTP/1.1 

Host: diveintopython3.org 

Accept-Encoding: identity 

User-Agent: Python-urllib/3.1' 

Connection: close 

reply: 'HTTP/1.1 200 OK' 

further debugging information omitted... 


注意 到 这 个 请 求 有 什么 特别 之 处 吗 ? 它 没有 变化 。 它 同 第 一 个 请 求 完全 一 样 。 没 
有 If-Modified-since 头 . 没有 If-None-Match 3k. 没有 尊重 缓存 头 ， 也 仍然 没有 压缩 。 


然后 ， 当 你 发 送 同样 的 请 求 的 时 候 会 发 生 什 么 呢 ? 你 又 一 次 得 到 同样 的 响应 。 


# continued from the previous example 


Date: Mon, 041 Jun 2009 03:58:00 GMT 
Server: Apache 

Last-Modified: Sun, 31 May 2009 22:51:11 GMT 
ETag: "bfe-255ef5c0" 

Accept-Ranges: bytes 

Content-Length: 3070 

Cache-Control: max-age-86400 

Expires: Tue, 02 Jun 2009 03:58:00 GMT 
Vary: Accept-Encoding 

Connection: close 

Content-Type: application/xml 

>>> data2 = response2.read() 


3070 


True 


1. 服务 器 仍然 在 发 送 同 祥 的 聪明 的 头 : Cache-Control 和 Expires 用 于 允许 缓存 ， 
Last-Modified 和 ETag 用 于 “是 否 变化 ”的 跟踪 。 甚 至 是 vary: Accept-Encoding 头 暗示 
只 要 你 请 求 ， 服 务 器 就 能 支持 压缩 。 但 是 你 没有 。 

2. 再 一 次 ， 获 取 这 个 数据 下 载 了 一 共 3070 个 字 节 .… 

3.，... 和 你 上 一 次 下 载 的 3070 字 节 完 全 一 致 。 


HTTP 设计 的 能 比 这 样 工作 的 更 好 。 urllib 使 用 HTTP 就 像 我 说 西班牙 语 一 样 一 可 以 表达 基 
本 的 意思 ， 但 是 不 足以 保持 一 个 对 话 。HTTP 是 一 个 对 话 。 是 时 候 更 新 到 一 个 可 以 流利 的 讲 
HTTP 的 库 了 。 


介绍 httplib2 


在 你 使 用 httplib2 BU, 你 需要 先 安装 它 。 访问 code.google.com/p/httplib2/ 并 下 载 最 新 版 
本 。 httplib2 对 于 Python 2.x 和 Python 3.x 都 有 对 应 的 版 本 ; 请 确保 你 下 载 的 是 Python 3 的 
版 本 , 名 字 类 似 httplib2-python3-0.5.0.zip o 


解压 该 档案 ， 打 开 一 个 终端 窗口 , 然后 切换 到 刚 生成 的 httplib2 目录 。 在 Windows 上 ， 请 打 
Jf 开始 菜单 , 选择 运行 , 输入 cmd.exe 最 后 按 回 车 (ENTER) . 


c:NUsersNpilgrimNDownloads» <mark>dir</mark> 
Volume in drive C has no label. 
Volume Serial Number is DED5-B4F8 


Directory of c:NUsersNpilgrimNDownloads 


07/28/2009 12:36 PM «DIR»? 
07/28/2009 12:36 PM «DIR»? 


07/28/2009 12:36 PM <DIR> httplib2-python3-0.5.0 
07/28/2009 12:33 PM 18,997 httplib2-python3-0.5.0.zip 
1 File(s) 18,997 bytes 


3 Dir(s) 61,496,684,544 bytes free 


c:\Users\pilgrim\Downloads> <mark>cd httplib2-python3-0.5.0</mark> 
c:\Users\pilgrim\Downloads\httplib2-python3-0.5.0> «mark»c:Npython31Npython.exe setup.py 
running install 

running build 

running build_py 

running install_lib 

creating c:Npython31NLibNsite-packagesNhttplib2 

copying buildMlibNhttplib2Niri2uri.py -> c:Npython31NLibNsite-packagesMhttplib2 
copying buildMlibNhttplib2N init .py -> c:Npython31NLibNsite-packagesNhttplib2 
byte-compiling c:Npython31NLibNsite-packagesNhttplib2Niri2uri.py to iri2uri.pyc 
byte-compiling c:Npython31NLibNsite-packagesNhttplib2N init .py to init .pyc 
running install egg info 

Writing c:Npython31NLibNsite-packagesMhttplib2-python3 0.5.0-py3.1.egg-info 
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在 Mac OS XE, 运行 位 于 /applications/Utilities/ 目录 下 的 rerminal.app 程序 。 在 Linux 
E, 247 终端 (Terminal) 程序 , 该 程序 一 般 位 于 你 的 sim 菜单 ， 在 Accessories 或 者 
系统 (System) 下 面 。 


youQülocalhost:-/Desktop$ <mark>unzip httplib2-python3-0.5.0.zip«/mark» 
Archive: Mhttplib2-python3-0.5.0.zip 
inflating: httplib2-python3-0.5.0/README 
inflating: httplib2-python3-0.5.0/setup.py 
inflating: httplib2-python3-0.5.0/PKG-INFO 
inflating: httplib2-python3-0.5.0/httplib2/ init .py 
inflating: httplib2-python3-0.5.0/httplib2/iri2uri.py 
youQülocalhost:-/Desktop$ «mark»cd httplib2-python3-0.5.0/«/mark» 
youQlocalhost:-/Desktop/httplib2-python3-0.5.0$ «mark»sudo python3 setup.py install«/mark 
running install 
running build 
running build py 
creating build 
creating build/lib.linux-x86 64-3.1 
creating build/lib.linux-x86 64-3.1/httplib2 
copying httplib2/iri2uri.py -» build/lib.linux-x86 64-3.1/httplib2 
copying httplib2/ init .py -> build/lib.linux-x86 64-3.1/httplib2 
running install lib 
creating /usr/local/lib/python3.1/dist-packages/httplib2 
copying build/lib.linux-x86 64-3.1/httplib2/iri2uri.py -» /usr/local/lib/python3.1/dist-p 
copying build/lib.linux-x86 64-3.1/httplib2/ init .py -> /usr/local/lib/python3.1/dist- 
byte-compiling /usr/local/lib/python3.1/dist-packages/httplib2/iri2uri.py to iri2uri.pyc 
byte-compiling /usr/local/lib/python3.1/dist-packages/httplib2/ init .py to init .py 
running install egg info 
Writing /usr/local/lib/python3.1/dist-packages/httplib2-python3 0.5.0.egg-info 
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要 使 用 httplib2 , 请 创建 一 个 httplib2.Http 类 的 实例 。 


>>> import httplib2 
200 
b"«?xml version-'1.0' encoding-'utf-8'?»NrNn«feed xmlns-" 


>>> len(content) 
3070 


1. httplib2 的 主要 接口 是 Http 对 象 。 你 创建 Http 对 象 时 总 是 应 该 传人 一 个 目录 名 ， 有 具体 
原因 你 会 在 下 一 节 看 见 。 目 录 不 需要 事先 存在 ， httplib2 会 在 必要 的 时 候 创 建 它 。 

2. 一 旦 你 有 了 Http 对 象 , 获取 数据 非常 简单 ， 以 你 要 的 数据 的 地 址 作为 参数 调 
FH request() 方法 就 可 以 了 。 这 会 对 该 URL 执 行 一 个 HTTP cer 请 求 . (这 一 章 下 面 你 会 
看 见 怎样 执行 其 他 HTTP 请 求 , 比如 posT 。) 

3. _ request() 方法 返回 两 个 值 。 第 一 个 是 一 个 httplib2.Response 对 象 ， 其 中 包含 了 服务 器 
返回 的 所 有 HTTP 头 。 比 如 ，status 为 200 表示 请 求 成 功 。 

4. content 变量 包含 了 HTTP 服 务 器 返回 的 实际 数据 。 数 据 以 bytes 对 象 返 回 ， 不 是 字符 
cB. 如 果 你 需要 一 个 字符 串 ， 你 需要 确定 字符 编码 并 自己 进行 转换 。 





你 很 可 能 只 需要 一 个 httplib2.Http 对 象 。 当然 存在 足够 的 理由 来 创建 多 个 ， 但 是 只 有 
当 你 清楚 创建 多 个 的 原因 的 时 候 才 应 该 这 样 做 。 从 不 同 的 URL 获 取 数 据 不 是 一 个 充分 的 
理由 ， 重 用 Http 对 象 并 调用 request() 方法 两 次 就 可 以 了 。 















































关于 httplib2 返回 字 节 捉 而 不 是 字符 串 的 简短 解释 


字 节 串 。 字 符 串 。 真 麻烦 啊 。 为 什么 httplib2 不 能 替 你 把 转换 做 了 呢 ? 由 于 决定 字符 编码 的 
规则 依赖 于 你 请 求 的 资源 的 类 型 ， 导 致 自动 转化 很 复杂 。 httplib2 怎么 知道 你 要 请 求 的 资源 
的 类 型 呢 ? 通常 类 型 会 在 content-Type HTTP. 头 里 面 列 出 ,但 是 这 是 HTTP 的 可 选 特性 ， 并 且 
并 非 所 有 的 HTTP 服 务 器 都 支持 。 如 果 HTTP 响 应 没有 包含 这 个 头 ， 那 就 留 给 客 户 端 去 猜 了 。 
(这 通常 被 称 为 “内容 嗅 探 (content snifffing)”， 但 它 从 来 就 不 是 完美 的 。) 


如 果 你 知道 你 期 待 的 资源 是 什么 类 型 的 (这 个 例子 中 是 XML 文档 ), 也 许 你 应 该 直接 将 返回 

的 字 节 串 (bytes) 对 象 传 给 xml.etree.Elementrree.parse() 国 数 。 只 要 ( 像 这 个 文档 一 样 )XML 
文档 自己 包含 字符 编码 信息 ， 这 是 可 以 工作 的 。 但 是 字符 编码 信息 是 一 个 可 选 特性 并 非 所 有 
XML 文档 包含 这 样 的 信息 。 如 果 一 个 XML 文档 不 包含 编码 信息 ， 客 户 端 应 该 去 查 

看 Content-Type HTTP 头 , 里 面 应 该 包含 一 个 charset 参数 。 


| support RFC 3023 t-shirt 


但 问题 更 糟糕 。 现 在 字符 编码 信息 可 能 在 两 个 地 方 : 在 XML 文档 自己 内 部 ， 在 content-Type 
HTTP 头 里 面 。 如 果 信 息 在 两 个 地 方 都 出 现 了 ， 哪 个 优先 呢 ? 根据 RFC 3023 (RRE, E 
是 我 编 的 ), 如 果 在 content-rype HTTP 头 里 面 给 出 的 媒体 类 型 (media type) 

是 application/xml , application/xml-dtd , application/xml-external-parsed-entity , 或 者 是 
任何 application/xml 的 子 类 型 ， 比如 application/atom-xml 或 者 application/rss-*xml 亦 或 


是 application/rdf+xml ,那么 编码 是 


1. Content-Type HTTP 头 的 charset 参数 给 出 的 编码 , 或 者 
2， 文 档 内 的 XML 声明 的 encoding 属性 给 出 的 编码 , 或 者 
3. UTF-8 


相反 ， 如 果 在 content-rype HTTP 头 里 面 给 出 的 媒体 类 型 (media 和 text/xml ， 
text/xml-external-parsed-entity , 或 者 任何 text/AnythingAtAll+xml 这 这 样 的 子 类 型 ， 那么 文档 
内 的 XML 声明 的 encoding 属性 完全 被 忽略 ， 编 码 是 


1. Content-Type HTTP 头 的 charset 参数 给 出 的 编码 , 或 者 


2. us-ascii 


而 且 这 还 只 是 针对 XML 文档 的 规则 。 对 于 HTML 文 档 ， 网 页 浏览 器 创造 了 用 于 内 容 嗅 探 的 复杂 
规则 (byzantine rules for content-sniffing) [PDF], 我 们 正 试图 搞 清楚 它们 。. 


欢迎 提交 补丁 ” 


httplib2 怎样 处 理 缓存 。 


还 记 的 在 前 一 节 我 说 过 你 总 是 应 该 在 创建 httplib2.Http 对 象 是 提供 一 个 目录 名 吗 ? 缓存 就 是 
这 样 做 的 目的 。 


# continued from the previous example 


200 


b"«?xml version='1.0' encoding='utf-8'?>\r\n<feed xmlns=" 
>>> len(content2) 
3070 


.没什么 惊奇 的 东西 。 跟 上 次 一 样 ， 只 不 过 你 把 结果 放 入 两 个 新 的 变量 。 
2. HTTP 状态 (status) 码 同 上 次 一 样 还 是 200 。 
3. 下 载 的 内 容 也 一 样 。 


谁 关心 这 些 东 西 啊 ? 退出 你 的 Python 交互 shell 然后 打开 一 个 新 的 会 话 ， 我 来 给 你 演示 。 


# NOT continued from previous example! 

# Please exit out of the interactive shell 
# and launch a new one. 

>>> import httplib2 

3070 

200 


True 


1. 让 我 们 打开 调试 开关 来 看 看 线路 上 是 什么 。 这 是 使 用 httplib2 打开 http.client 调试 开 
关 的 方法 .httplib2 会 打印 出 发 给 服务 器 的 所 有 数据 以 及 一 些 返 回 的 关键 信息 。 
2. 使 用 同 之 前 一 样 的 目录 创建 httplib2.Http 对 象 。 


3. 请 求 同 之 前 一 样 的 URL。 什么 也 没有 发 生 。 更 准确 的 说 ， 没 有 东西 发 送 到 服务 器 ， 没 有 
东西 从 服务 器 返回 。 没 有 任何 形式 的 网 络 活动 。 

4. 但 我 们 还 是 接收 到 了 数据 ， 实 际 上 是 所 有 的 数据 。 

5. 我 们 也 接收 到 表示 请 求 成 功 的 HTTP 状 态 码 。 

6. 这 里 是 奥秘 所 在 : 响应 是 从 httplib2 的 本 地 缓存 构造 出 来 的 。 你 创建 httplib2.Http 对 象 
是 传人 的 目录 里 面 保存 了 所 有 httplib2 执行 过 的 操作 的 缓存 。 


线路 上 有 什么 ?没有 东西 。 











如 果 你 想 要 打开 httplib2 的 调试 开关 ， 你 需要 设置 一 个 模块 级 的 常 
( httplib2. M D). 然后 再 创建 httplib2.Http 对 象 。 如 果 你 希望 3 闭 调试 ， 你 需要 
改变 同一 个 模块 级 常量 , 接着 创建 一 个 新 的 httplib2.Http 对 象 。 


m 


























你 刚刚 请 求 过 这 个 URL 的 数据 。 那 个 请 求 是 成 功 的 ( 状态 码 : 200 )。 该 响应 不 仅 包含 feed 数 
据 ， 也 包含 一 uc 头 ， 告 诉 那些 关注 着 的 人 这 个 资源 可 以 缓存 长 达 24 小 时 

( Cache-Control: max-age-86400 , 24 小 时 所 对 应 的 秒 数 )。 httplib2 理解 并 尊重 那些 缓存 头 ， 
并 且 它 会 在 .cache 目录 (你 在 创建 Http 对象 时 提供 的 ) 保 存 之 前 的 响应 。 缓 存 还 没有 过 期 ， 
所 以 你 第 二 次 请 求 该 URL 的 数据 时 ，httplib2 不 会 去 访问 网 络 ， 直 接 返 回 缓存 着 的 数据 。 


我 说 的 很 简单 ， 但 是 很 显然 在 这 简单 后 面 隐藏 了 很 多 复杂 的 东西 。 httplib2 会 自动 处 理 
HTTP 缓 存 ， 并 且 这 是 默认 的 行为 . 如 果 由 于 某 些 原因 你 需要 知道 响应 是 否 来 自 缓存 ， 你 可 以 
检查 response.fromcache . 否则 的 话 ， 它 工作 的 很 好 。 


现在 ， 假 设 你 有 数据 缓存 着 ， 但 是 你 希望 跳 过 缓存 并 且 重 新 请 求 远程 服务 器 。 浏 览 器 有 时 候 
会 应 用 户 的 要 求 这 么 做 。 比 如 说 ， 按 Fs 刷新 当前 页 面 ， 但 是 按 ctrl+rs 会 跳 过 缓存 并 向 远程 
服务 器 重新 请 求 当前 页 面 。 你 可 能 会 想 " 吧 ， 我 只 要 从 本 地 缓存 删除 数据 ， 然 后 再 次 请 求 就 可 
以 了 。 ”你 可 以 这 么 干 ， 但 是 请 记 住 ， 不 只 是 你 和 远程 服务 器 会 二 扯 其 中。 那些 中 继 代 理 服务 
器 呢 ?它们 完全 不 受 你 的 控制 ， 并 且 它 们 可 能 还 有 那 份 数据 的 缓存 ， 然 后 很 高 关 的 将 其 返回 
给 你 , 因为 (对 它们 来 说 ) 缓 存 仍然 是 有 效 的 。 


你 应 该 使 用 HTTP 的 特性 来 保证 你 的 请 求 最 终 到 达 远 程 服务 器 ， 而 不 是 修改 本 地 缓存 然后 听 天 
由 命 。 


# continued from the previous example 
>>> response2, content2 = h.request('http://diveintopythonS3.org/examples/feed.xml', 


send: b'GET /examples/feed.xml HTTP/1.1 
Host: diveintopython3.org 

user-agent: Python-httplib2/$Rev: 259 $ 
accept-encoding: deflate, gzip 
cache-control: no-cache' 

reply: 'HTTP/1.1 200 OK' 

„further debugging information omitted... 
>>> response2.status 

200 


False 


['status': '200', 
'content-length': '3070', 
'content-location': 'http://diveintopython3.org/examples/feed.xml', 
'accept-ranges': 'bytes', 
'expires': 'Wed, O03 Jun 2009 00:40:26 GMT', 
'vary': 'Accept-Encoding', 
'server': 'Apache', 
'last-modified': 'Sun, 31 May 2009 22:51:11 GMT', 
'connection': 'close', 
'-content-encoding': 'gzip', 
'etag': '"bfe-255ef5cO0"', 
'cache-control': 'max-age-z86400', 
'date': 'Tue, 02 Jun 2009 00:40:26 GMT', 
'content-type': 'application/xml') 


1. nttplib2 人 允许 你 添加 任意 的 HTTP 头 部 到 发 出 的 请 求 里 。 为 了 跳 过 所 有 缓存 (不 仅仅 是 你 
本 地 的 磁 胡 缓存 ， 也 包括 任何 处 于 你 和 远程 服务 器 之 间 的 缓存 代理 服务 器 ), 在 headers F 
典 里 面 加 入 no-cache 头 就 可 以 了 。 

2， 现 在 你 可 以 看 见 httplib2 初始 化 了 一 个 网 络 请 求 。 httplib2 理解 并 尊重 两 个 方向 的 缓 
存 头 ， 一 作为 接受 的 响应 的 一 部 分 以 及 作为 发 出 的 请 求 的 一 部 分 . 它 注 意 到 你 加 入 了 一 
个 no-cache 头 ， 所 以 它 完全 跳 过 了 本 地 的 缓存 ， 然 后 不 得 不 去 访问 网 络 来 请 求 数据 。 

3. 这 个 响应 不 是 从 本 地 缓存 生成 的 。 你 当然 知道 这 一 点 ， 因 为 你 看 见 了 发 出 的 请 求 的 调试 
信息 。 但 是 从 程序 上 再 验证 一 下 也 不 错 。 

4. 请 求 成 功 ; 你 再 次 从 远程 服务 器 下 载 了 整个 供稿 。 当 然 ， 服 务 器 同 供稿 数据 一 起 也 返回 
了 完整 的 HTTP 头 。 这 里 面 也 包含 缓存 头 ，httplib2 会 使 用 它 来 更 新 它 的 本 地 缓存 ， 希 望 
你 下 次 请 求 该 供稿 时 能 够 避免 网 络 请 求 。HTTP 缓 存 被 设计 为 尽量 最 大 化 缓存 命中 率 和 最 
小 化 网 络 访问 。 即 使 你 这 一 次 跳 过 了 缓存 ， 服 务 器 仍 非 常 乐意 你 能 缓存 结果 以 备 下 一 次 
请 求 


httplib2 怎么 处 理 Last-Modified 和 ETag 头 


Cache-Control 和 Expires 缓存 头 被 称 为 新 鲜 度 指 标 (freshness indicators). (4158 5 A RB ES 
诉 缓存 ， 你 可 以 完全 避免 所 有 网 络 访问 ， 直 到 缓存 过 期 。 而 这 正 是 你 在 前 一 节 所 看 到 的 : 给 出 
一 个 新 鲜 度 指标 ，httplib2 不 会 产生 哪怕 是 一 个 字 节 的 网 络 活动 就 可 以 提供 缓存 了 的 数据 ( 当 
然 除非 你 显 式 的 要 求 跳 过 缓存 ). 


那 如 果 数 据 可 能 已 经 改变 了 , 但 实际 没有 呢 ? HTTP 为 这 种 目的 定义 

了 Last-Modified 和 Etag 头 。 这 些 头 被 称 为 验证 器 (validators)。 如 果 本 地 缓存 已 经 不 是 新 鲜 
的 ， 客 户 端 可 以 在 下 一 个 请 求 的 时 候 发 送 验证 器 来 检查 数据 实际 上 有 没有 改变 。 如 果 数 据 没 
有 改变 ， 服 务 器 返回 sea 状态 码 ， 但 不 返回 数据 。 所 以 虽然 还 会 在 网 络 上 有 一 个 来 回 ， 但 是 
你 最 终 可 以 少 下 载 一 点 字 节 。 


>>> import httplib2 
>>> httplib2.debuglevel = 1 
>>> h = httplib2.Http('.cache') 


connect: (diveintopython3.org, 80) 

send: b'GET / HTTP/1.1 

Host: diveintopython3.org 
accept-encoding: deflate, gzip 
user-agent: Python-httplib2/$Rev: 259 $' 
reply: 'HTTP/1.1 200 OK' 


('-content-encoding': 'gzip', 
'accept-ranges': 'bytes', 
'connection': 'close', 
'content-length': '6657', 
'content-location': 'http://diveintopython3.org/', 
'content-type': 'text/html', 
'date': 'Tue, 02 Jun 2009 03:26:54 GMT', 


«mark»'etag': '"7f806d-1a01-9fb97900"',«/mark» 
«mark»'last-modified': 'Tue, 02 Jun 2009 02:51:48 GMT',«/mark» 
'server': 'Apache', 


'status': '200', 
'vary': 'Accept-Encoding,User-Agent '} 


6657 


1. 取代 供稿 ， 我 们 这 一 次 要 下 载 的 是 网 站 的 主页 ， 是 HTML 格 式 的 。 这 是 你 第 一 次 请 求 这 个 
页 面 ， httplib2 没什么 能 做 的 ， 它 在 请 求 中 发 出 最 少量 的 头 。 

2， 响 应 包含 了 多 个 HTTP 头 … 但 是 没有 缓存 信息 。 然 而 ， 它 包含 了 ETag 和 
Last-Modified 3X, 

3， 在 我 写 这 个 例子 的 时 候 ， 这 个 页 面 有 6657 字 节 。 在 那 之 后 ， 它 很 可 经 变 了 , 但 是 不 用 
担心 这 一 点 。 


# continued from the previous example 
connect: (diveintopython3.org, 80) 
send: b'GET / HTTP/1.1 

Host: diveintopython3.org 


accept-encoding: deflate, gzip 
user-agent: Python-httplib2/$Rev: 259 $' 


True 
200 
'304' 


6657 


. 你 再 次 请 求 同 一 个 页 面 ， 使 用 同一 个 Http 对 象 (以 及 同一 个 本 地 缓存 )。 


2. httplib2 将 ETag validator 通过 If-None-Match 头发 送 回 服务 器 。 

httplib2 也 将 Last-Modified validator 通过 rf-Modified-Since 头发 送 回 服务 器 。 

4. 服务 器 查看 这 些 验 证 器 (validators), 查看 你 请 求 的 页 面 ， 然 后 判读 得 出 页 面 在 上 次 请 求 之 
后 没有 改变 过 , 所 以 它 发 回 了 364 状态 码 不 带 数 据 . 

5， 回 到 客户 端 ， httplib2 注意 到 364 状态 码 并 从 它 的 缓存 加 载 页 面 的 内 容 。 

6， 这 可 能 会 让 人 有 些 困 惑 。 这 里 实际 上 有 两 个 状态 码 一 304 (服务 器 这 次 返回 的 , $ 
SX nttplib2 查看 它 的 缓存 ) 和 200 (服务 器 上 次 返回 的 , 并 和 页 面 数据 一 起 保存 
在 nttplib2 的 缓存 里 )。 response.status 返回 缓存 里 的 那个 。 

7. 如 果 你 需要 服务 器 返回 的 原始 的 状态 码 ， 你 可 以 从 response.dict 里 面 找到 ， 它 是 包含 服 
务 器 返回 的 真实 头 部 的 字典 . 

8. 然而 ， 数据 还 是 保存 在 了 Content 变量 里 。 一 般 来 说 ， 你 不 需要 关心 为 什么 响应 是 从 组 
存 里 面 来 的 。 ee ld 这 是 一 件 好 事 。 httplib2 足够 陪 
明 ， 允许 你 傻瓜 一 点 。 ) request() 返回 的 时 候 ， httplib2 就 已 经 经 更 新 了 缓存 并 把 数据 返 

回 给 你 了 。 


e 


http2lib 怎么 义理 压缩 


“我 们 两 种 音乐 都 有 ， 乡 村 的 和 西方 的 。” 
HTTP 支 持 两 种 类 型 的 压缩 。 httplib2 都 支持 。 


>>> response, content = h.request('http://diveintopython3.org/') 
connect: (diveintopython3.org, 80) 

send: b'GET / HTTP/1.1 

Host: diveintopython3.org 


user-agent: Python-httplib2/$Rev: 259 $' 
reply: 'HTTP/1.1 200 OK' 
>>> print(dict(response.items())) 


'accept-ranges': 'bytes', 

'connection': 'close', 

'content-length': '6657', 

'content-location': 'http://diveintopython3.org/', 
'content-type': 'text/html', 

'date': 'Tue, 02 Jun 2009 03:26:54 GMT', 


'etag': '"7f806d-1a01-9fb97900"', 
'last-modified': 'Tue, 02 Jun 2009 02:51:48 GMT', 
'server': 'Apache', 


'status': '304', 
'vary': 'Accept-Encoding,User-Agent ') 


1. 每 一 次 httplib2 发 送 请 求 ， 它 包含 了 Accept-Encoding 头 来 告诉 服务 器 它 能 够 处 
理 deflate 或 者 gzip 压缩 。 
2， 这 个 例子 中 ， 服 务 器 返回 了 gzip 压 缩 过 的 负载 ， 当 request) 方法 返回 的 时 
" httplib2 A 经 解压 压缩 了 响应 的 体 (body) 并 将 其 LE content 变量 里 。 如 果 你 想 知 
道 响应 是 否 压 缩 过 , 你 可 以 检查 response['-content-encoding'] ; 否则 ， 不 用 担心 了 


httplib2 怎样 处 理 重 定向 


HTTP 定义 了 两 种 类 型 的 重 定向 : 临时 的 和 永久 的 。 对 于 临时 重 定向 ， 除 了 跟随 它们 其 他 没 
什么 特别 要 做 的 ，httplib2 会 自动 处 理 跟随 。 


>>> import httplib2 
>>> httplib2.debuglevel = 1 
>>> h = httplib2.Http('.cache') 


connect: (diveintopython3.org, 80) 


Host: diveintopython3.org 
accept-encoding: deflate, gzip 
user-agent: Python-httplib2/$Rev: 259 $' 


Host: diveintopython3.org 
accept-encoding: deflate, gzip 
user-agent: Python-httplib2/$Rev: 259 $' 
reply: 'HTTP/1.1 200 OK' 


1. 这 个 URL 上 没有 供稿 。 我 设置 了 服务 器 让 其 发 出 一 个 到 正确 地 址 的 临时 重 定向 。 

2. 这 是 请 求 。 

3. 这 是 响应 : 302 Found 。 这 里 没有 显示 出 来 ， 这 个 响应 也 包含 由 一 个 Location 头 给 出 实 
际 的 URL. 


4. httplib2 马上 转身 并 跟随 重 定向 ， 发 出 另 一 个 到 在 Location 头 里 面 给 出 的 URL: 


http://diveintopython3.org/examples/feed.xml 的 请 求 。 


“跟随 ” 一 个 重 定向 就 是 这 个 例子 展示 的 那么 多 。 httplib2 发 送 一 个 请 求 到 你 要 求 的 URL。 服 
务 器 返回 一 个 响应 说 “不 ， 不 , 看 那 边 .” httplib2 给 新 的 URL 发 送 另 一 个 请 求 . 


# continued from the previous example 


['status': '200', 
'content-length': '3070', 


'accept-ranges': 'bytes', 

'expires': 'Thu, 04 Jun 2009 02:21:41 GMT', 
'vary': 'Accept-Encoding', 

'server': 'Apache', 

'last-modified': 'Wed, 03 Jun 2009 02:20:15 GMT', 
'connection': 'close', 

'etag': '"bfe-4cbbf5cOo"', 


'date': 'Wed, O03 Jun 2009 02:21:41 GMT', 
'content-type': 'application/xml') 


1， 你 调用 request) 方法 返回 的 response 是 最 终 URL 的 响应 。 

2. httplib2 会 将 最 终 的 URL 以 content-location 加 入 到 response 字典 中 。 这 不 是 服务 
SEXE IBS A, pu httplib2 。 

3. 没什么 特别 的 理由 , 这 个 供稿 是 压缩 过 的 . 

4. XBEUu55. ee 这 很 重要 。 ) 


你 得 到 的 response 给 了 你 最 终 URL 的 相关 信息 。 如 果 你 希望 那些 最 后 重 定 向 到 最 终 URL 的 中 
间 URL 的 信息 呢 ?” httplib2 也 能 帮 你 。 


# continued from the previous example 


['status': '302', 
'content-length': '228', 
'content-location': 'http://diveintopython3.org/examples/feed-302.xml', 
'expires': 'Thu, 04 Jun 2009 02:21:41 GMT', 
'server': 'Apache', 
'connection': 'close', 
'location': 'http://diveintopython3.org/examples/feed.xml', 
'cache-control': 'max-age-z86400', 
'date': 'Wed, 03 Jun 2009 02:21:41 GMT', 
'content-type': 'text/html; charset-iso-8859-1'] 


«class 'httplib2.Response'» 
>>> type(response.previous) 
«class 'httplib2.Response'» 


22» 


1. response.previous 属性 持 有 前 一 个 响应 对 象 的 引用 ， httplib2 跟随 那个 响应 获得 了 当 
前 的 响应 对 象 。 

2. response 和 response.previous 都 是 httplib2.Response 对 象 。 

3. 这 意味 着 你 可 以 通过 response.previous.previous 来 反 向 跟踪 重 定向 链 到 更 前 的 请 青 求 。 
(场景 : 一 个 URL 重 定向 到 第 二 个 URL， 它 又 重 定向 到 第 三 个 URL。 这 可 能 发 生 !) 在 这 例 
子 里 ， 我 们 已 经 到 达 了 重 定向 链 的 开头 ， 所 有 这 个 属性 是 None . 


如 果 我 们 再 次 请 求 同 一 个 URL 会 发 生 什么 ? 


# continued from the previous example 
connect: (diveintopython3.org, 80) 
Host: diveintopython3.org 
accept-encoding: deflate, gzip 


user-agent: Python-httplib2/$Rev: 259 $' 


True 


— 


同一 个 URL, 同一 个 httplib2.Http 对 象 (所 以 也 是 同一 个 缓存 )。 

302 响应 没有 缓存 ， 所 以 httplib2 对 同一 个 URL 发 送 了 另 一 个 请 求 。 

3. 再 一 次 ， 服 务 器 以 302 响应 。 但 是 请 注意 什么 没有 发 生 : 没有 第 二 个 到 最 终 URL， 
http://diveintopython3.org/examples/feed.xml 的 请 青 求 。 原因 是 缓存 (还 不 记 的 你 在 前 一 个 
例子 中 看 到 的 cache-control 头 吗 ?)。 一 旦 httplib2 收 到 302 Found 状态 码 , 它 在 发 
出 新 的 请 求 前 检查 它 的 缓存 . 缓存 中 有 Ce 的 
一 份 新 鲜 副本 , 所 以 不 需要 重新 请 求 它 

当 request() 方法 返回 的 时 候 ， 它 已 a 它 。 当 然 ， 它 
和 你 上 次 收 到 的 数据 是 一 样 的 。 


N 


换 句 话说 ， 对 于 临时 重 定向 你 不 需要 做 什么 特别 的 处 理 。 httplib2 会 自动 跟随 它们 ， 而 一 个 
URL 重 定向 到 另 一 个 这 个 事实 上 不 会 影响 httplib2 对 压缩 ， 缓 存 ，ETags ,或 者 任何 其 他 


HTTP 特 性 的 支持 。 


永久 重 定 向 同 祥 也 很 简单 。 


# continued from the previous example 
connect: (diveintopython3.org, 80) 

send: b'GET /examples/feed-301.xml HTTP/1.1 
Host: diveintopython3.org 

accept-encoding: deflate, gzip 

user-agent: Python-httplib2/$Rev: 259 $' 


True 


1. 又 一 次 ， 这 个 URL 实 际 上 并 不 存在 。 我 设置 我 的 服务 器 来 执行 一 个 永久 重 定向 
到 http://diveintopython3.org/examples/feed.xml 

2， 这 就 是 : 状态 码 sei. 但 是 再 次 注意 什么 没有 发 生 : 没有 发 送 到 重 定向 后 的 URL 的 请 求 。 
为 什么 没有 ? 因为 它 已 经 在 本 地 缓存 了 。 

3. httplib2 “跟随 ” 重 定向 到 了 它 的 缓存 里 面 。 


但 是 等 等 ! 还 有 更 多 ! 


# continued from the previous example 
True 


True 


1. 这 是 临时 和 永久 重 定向 的 区 别 : 一 旦 nttplib2 跟随 了 一 个 永久 重 定向 , 所 有 后 续 的 对 这 个 
URL 的 请 求 会 被 透明 的 重 写 到 目标 URL 而 不 会 接触 网 络 来 访问 原始 的 URL。 记 住 , 调试 
还 开 着 , 但 没有 任何 网 络 活动 的 输出 。 

2. BB, 响应 是 从 本 地 缓存 获取 的 。 

3. HB, 你 (从 缓存 里 面 ) 得 到 了 整个 供稿 。 


HTTP. 它 可 以 工作 。 


HTTP GET 之 外 


HTTP web 服务 并 不 限于 ET 请 求 。 当 你 要 创建 点 东西 的 时 候 呢 ? 当 你 在 论坛 上 发 表 一 个 评 
论 ， 更 新 你 的 博客 ， 在 Twitter 或 者 Identi.ca 这 样 的 微 博客 上 面 发 表 状 态 消 息 的 时 候 , 你 很 可 能 
已 经 使 用 了 HTTP Post. 


Twitter 和 Identi.ca 都 提供 一 个 基于 HTTP 的 简单 的 APl 来 发 布 并 更 新 你 状态 (不 超过 140 个 字 
符 )。 让 我 们 来 看 看 ldenti.ca 的 关于 更 新 状态 的 API 文 档 : 


Identi.ca 的 REST API 方法 : statuses/update 更 新 已 认证 用 户 的 状态 。 需 要 下 面 格式 
的 status 参数 。 请 求 必 须 是 POST. 


URL 
https://identi.ca/api/statuses/update. format _ 
Formats 
xml, json, rss , atom 
HTTP Method(s) 
POST 
Requires Authentication 
true 
Parameters 
status . Required. The text of your status update. URL-encode as necessary. 


怎么 操作 呢 ? 要 在 ldenti.ca 发 布 一 条 消息 , 你 需要 提交 一 个 HTTP post 请 求 

到 http://identi.ca/api/statuses/update. format .( format 字样 不 是 URL 的 一 部 分 ; 你 应 该 
将 其 蔡 换 为 你 希望 服务 器 返回 的 请 求 的 格式 。 所 以 如 果 需 要 一 个 XML 格式 的 返回 。 你 应 该 
向 https://identi.ca/api/statuses/update.xml 发 送 请 求 。) 请 求 需要 一 个 参数 status , 包含 


了 你 的 状态 更 新 文本 。 并 且 请 求 必须 是 已 授权 的 。 


授权 ? 当然 。 要 在 ldenti.ca 上 发 布 你 的 状态 更 新 , 你 得 证 明 你 的 身份 。ldenti.ca 不 是 一 个 维基 ; 
只 有 你 自己 可 以 更 新 你 的 状态 。ldenti.ca 使 用 建立 在 SSL 之 上 的 HTTP Basic Authentication 
(也 就 是 RFC 2617) 来 提供 安全 但 方便 的 认证 。 httplib2 支持 SSL 和 HTTP Basic 
Authentication, 所 以 这 部 分 很 简单 。 


Posr 请 求 同 GET 请 求 不 同 , 因为 它 包含 负荷 (payloaq). 负荷 是 你 要 发 送 到 服务 器 的 数据 。 这 
个 API 方 法 必须 的 参数 是 status , 并且 它 应 该 是 VRL 编 码 过 的 。 这 是 一 种 很 简单 的 序列 化 格 
式 ， 将 一 组 键 值 对 (比如 字典 ) 转 化 为 一 个 字符 串 。 


"Status=Test+update+from+Python+3 


1. Python 带 有 一 个 工具 函数 用 于 URL 编 码 一 个 字典 : urllib.parse.urlencode() . 

2， 这 就 是 ldenti.ca API 所 期 望 的 字典 。 它 包含 一 个 键 ， status ,对 应 值 是 状态 更 新 文本 。 

3. 这 是 URL 编 码 之 后 的 字符 串 的 样子 。 这 就 是 会 通过 线路 发 送 到 ldenti.ca API 服务 器 的 
HTTP post 请 求 中 的 负荷 . 


>>> from urllib.parse import urlencode 

>>> import httplib2 

>>> httplib2.debuglevel = 

>>> h = httplib2.Http('.cache') 

>>> data = {'status': 'Test update from Python 3'} 


>>> resp, content = h.request('https://identi.ca/api/statuses/update.xml', 


1. 这 是 httplib2 义理 认证 的 方法 。 add_credentials() 方法 记录 你 的 用 户 名 和 密码 。 
34 nttplib2 试图 执行 请 求 的 时 候 ， 服 务 器 会 返回 一 个 461 unauthorized 状态 码 , 并 且 列 
出 所 有 它 支持 的 认证 方法 (在 ww-Authenticate 头 中 )，httplib2 会 自动 构 
造 Authorization 头 并 且 重 新 请 求 该 URL. 

2， 第 二 个 参数 是 HTTP 请 求 的 类 型 。 这 里 是 POST. 

3. 第 三 个 参数 是 要 发 送 到 服务 器 的 负荷 。 我 们 发 送 包 含 状态 消息 的 URL 编 码 过 的 字典 。 

4. 最 后 ， 我 们 得 告诉 服务 器 负荷 是 URL 编 码 过 的 数据 。 


add credentials( ) 方法 的 第 三 个 参数 是 该 证 书 有 效 的 域名 。 你 应 该 总 是 指定 这 个 参数 ! 
M emere 并 且 之 后 重用 这 个 httplib2.Http 对 象 访 问 另 一 个 需要 认证 的 站 
点 ， 可 能 会 导致 httplib2 将 一 个 站 点 的 用 户 名 密码 泄漏 给 其 他 站 点 。 








发 送 到 线路 上 的 数据 : 


# continued from the previous example 

send: b'POST /api/statuses/update.xml HTTP/1.1 
Host: identi.ca 

Accept-Encoding: identity 

Content-Length: 32 

content-type: application/x-www-form-urlencoded 
user-agent: Python-httplib2/$Rev: 259 $ 


status-Test-*update-fromecPython-3 ' 
Host: identi.ca 
Accept-Encoding: identity 


Content-Length: 32 
content-type: application/x-www-form-urlencoded 


user-agent: Python-httplib2/$Rev: 259 $ 


status-Test-*update-fromecPython-3 ' 


1. 第 一 请 求 ， 服务 器 以 401 Unauthorized 状态 : 码 返 回 。 httplib2 从 不 主动 发 送 认证 头 ， 
KR E 这 就 是 服务 器 要 求 认证 头 的 方法 。 

2. httplib2 马上 转 个 身 ， 第 二 次 请 求 同 样 的 URL 。 
这 一 次 ， 包 含 了 你 通过 add credentials() 方法 加 入 的 用 户 名 和 密码 。 

4. 成功 ! 


请 求 成 功 后 服务 器 返回 什么 ? 这 个 完全 由 web 服务 API 决 定 。 在 一 些 协 议 里 面 (就 像 Atom 
Publishing Protocol), 服务 器 会 返回 201 created 状态 码 ， 并 通过 Location 提供 新 创建 的 资源 
的 地 址 。ldenti.ca 返回 200 ok 和 一 个 包含 新 创建 资源 信息 的 XML 文档 。 


# continued from the previous example 


<?xml version-z"1.0" encoding-"UTF-8"?» 
«status» 


«truncated»-false«/truncated» 

«created at»Wed Jun 10 03:53:46 +0000 2009«/created at» 
«in reply to status id»«/in reply to status id» 
«source»api«c/source» 














«in reply to user id»«/in reply to user id» 
«in reply to screen name»c/in reply to screen name» 
«favorited»false«/favorited» 
«user» 
«id»3212«/id» 
<name>Mark Pilgrim«/name» 
«screen name»diveintomark«/screen name» 
«location»27502, US«/location» 
«description»tech writer, husband, father«/description-» 
«profile image url»-http://avatar.identi.ca/3212-48-20081216000626.png«/profile image ur 
«url»http://diveintomark.org/«/url» 
«protected»falsec/protected» 
«followers count»329«/followers count» 
«profile background color»«/profile background color» 
«profile text color»«/profile text color» 
«profile link color»«/profile link color» 
«profile sidebar fill color»«/profile sidebar fill color» 
«profile sidebar border color»«/profile sidebar border color» 
«friends count»2«/friends count» 
«created at»Wed Jul 02 22:03:58 +0000 2008«/created at» 
«favourites count»30768«/favourites count» 
«utc offset»0«/utc offset» 
«time zone»UTC«/time zone» 
«profile background image url»«/profile background image url» 
«profile background tile»false«/profile background tile» 
«statuses count»122«/statuses count» 
«following»false«/following» 
«notifications»false«/notifications» 
«/user» 








«/status» 





1. È, httplib2 返回 的 数据 总 是 字 节 串 (bytes), 不 是 字符 串 。 为 了 将 其 转化 为 字符 串 ， 你 
需要 用 合适 的 字符 编码 进行 解码 。ldenti.ca 的 AP| 总 是 返回 UTF-8 编 码 的 结果 , 所 以 这 部 
分 很 简单 。 

2. 这 是 我 们 刚 发 布 的 状态 消息 。 

3. 这 是 新 状态 消息 的 唯一 标识 符 。ldenti.ca 用 这 个 标识 来 构造 在 web 上 查看 该 消息 的 URL。 


下 面 就 是 这 条 消息 : 


家 identi.ca 


UIC 


diveintomark Test update from 
Python 3 





HTTP POST 之 外 


HTTP 并 不 只 限于 cer 和 PosT 。 它们 当然 是 最 常见 的 请 求 类 型 ， 特 别 是 在 web 浏 览 器 里 
面 。 但 是 web 服 务 API 会 使 用 cer 和 post 之 外 的 东西 , 对 此 nttplib2 也 能 处 理 。 


# continued from the previous example 
>>> from xml.etree import ElementTree as etree 


>>> status id 
'5131472' 


1， 服 务 器 返回 的 是 XML, 对 吧 ? 你 知道 如 何 解析 XML. 

2. findtext() 方法 找到 对 应 表达 式 的 第 一 个 实例 并 抽取 出 它 的 文本 内 容 。 在 这 个 例子 中 ， 
我 们 查找 &lt;id&gt; 元 素 . 

3. 基于 &lt;id&gt; 元 素 的 文本 内 容 ， 我 们 可 以 构造 出 一 个 URL 用 于 删除 我 们 刚刚 发 布 的 状 
态 消息 。 


4. 要 删除 一 条 消息 ， 你 只 需要 对 该 URL 执 行 一 个 HTTP eTe 请 求 就 可 以 了 。 


这 就 是 发 送 到 线路 上 的 东西 : 


Host: identi.ca 
Accept-Encoding: identity 
user-agent: Python-httplib2/$Rev: 259 $ 


Host: identi.ca 
Accept-Encoding: identity 


user-agent: Python-httplib2/$Rev: 259 $ 


>>> resp.status 
200 


1.“ 删 除 该 状态 消息 . 

2.“ 对 不 起 ，Dave, 恐怕 我 不 能 这 么 干 ” 
3.“ 没 有 授权 ? IS. 请 删除 这 条 消息 ... 
4.... 这 是 我 的 用 户 名 和 密码 。” 

5 


identi.ca 


Not Found 


No such notice. 


进一步 阅读 
httplib2 : 


e httplib2 项 目 页 面 


Dive Into Python3 


e 更 多 nttplib2 的 代码 示例 
e 正确 的 处 理 HTTP 缓 存 : 介绍 httplib2 
e httplib2 : HTTP 持久 化 和 认证 


HTTP 缓存 : 


e HTTP 缓存 教程 来 自 Mark Nottingham 
e 怎 用 使 用 HTTP 头 控制 缓存 位 于 Google Doctype 


RFCs: 


RFC 2616: HTTP 

RFC 2617: HTTP Basic Authentication 
RFC 1951: deflate compression 

RFC 1952: gzip compression 


Chapter 14 HTTP Web 服务 
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Chapter 15 案例 研究 :将 chardet 移植 到 Python 
3 


" Words, words. They're all we have to go on. " — Rosencrantz and Guildenstern are 
Dead 


概述 
未 知 的 或 者 不 正确 的 字符 编码 是 因特网 上 无 效 数据 (gibberish text) 的 头号 起 因 。 在 第 3 章 ， 我 
们 讨论 过 字符 编码 的 历史 ， 还 有 Unicode 的 产生 ，“ 一 个 能 处 理 所 有 情况 的 大 块头 。" 如 果 在 网 
络 上 不 再 存在 乱码 这 回 事 ， 我 会 爱 上 她 的 ... 因 为 所 有 的 编辑 系统 (authoring system) 保 存 有 精 
确 的 编码 信息 ， 所 有 的 传输 协议 都 支持 Unicode， 所 有 人 处理 文本 的 系统 在 执行 编码 间 转 换 的 时 
候 都 可 以 保持 高 度 精确 。 

我 也 会 喜欢 pony。 

Unicode pony. 

Unipony 也 行 。 


这 一 章 我 会 处 理 编码 的 自动 检测 。 


什么 是 字符 编码 目 动 检测 ? 


它 是 指 当面 对 一 串 不 知道 编码 信息 的 字 节 流 的 时 候 ， 党 试 着 确定 一 种 编码 方式 以 使 我 们 能 够 
读 懂 其 中 的 文本 内 容 。 它 就 像 我 们 没有 解密 钥匙 的 时 候 ， 尝 试 破解 出 编码 。 


那 不 是 不 可 能 的 吗 ? 


通常 来 说 ， 是 的 ， 不 可 能 。 但 是 ， 有 一 些 编码 方式 为 特定 的 语言 做 了 优化 ， 而 语言 并 非 随 机 
存在 的 。 有 一 些 字 符 序 列 在 某 种 语言 中 总 是 会 出 现 ， 而 其 他 一 些 序列 对 该 语言 来 说 则 毫 无 意 
义 。 一 个 熟练 掌握 英语 的 人 翻 开 报纸 ， 然 后 发 现 “txzqJv 2!dasd0a QqdKjvz”" 这 样 一 些 序列 ， 
他 会 马上 意识 到 这 不 是 英语 (即使 它 完 全 由 英语 中 的 字母 组 成 ) 。 通 过 研究 许多 具有 "代表 性 
(typical)* 的 文本 ， 计 算 机 算法 可 以 模拟 人 的 这 种 对 语言 的 感知 ， 并 且 对 一 段 文本 的 语言 做 出 启 
发 性 的 猜测 。 


换 句 话说 就 是 ， 检 测 编码 信息 就 是 检测 语言 的 类 型 ， 并 辅 之 一 些 额 外 信息 ， 比 如 每 种 语言 通 
常会 使 用 哪些 编码 方式 。 


这 样 的 算法 存在 吗 ? 


结果 证 明 ， 是 的 ， 它 存在 。 所 有 主流 的 浏览 器 都 有 字符 编码 自动 检测 的 功能 ， 因 为 因特网 上 
总 是 充斥 着 大 量 缺 乏 编码 信息 的 页 面 。Mozilla Firefox 包 含有 一 个 自动 检测 字符 编码 的 库 ， 它 
是 开源 的 。 我 将 它 导 人 到 了 Python 2， 并 且 取 绰号 为 chardet 模块 。 这 一 章 中 ， 我 会 带领 你 
一 步 一 步 地 将 chardet 模块 从 Python 2 移植 到 Python 3。 


介绍 chardet 模块 


在 开始 代码 移植 之 前 ， 如 果 我 们 能 理解 代码 是 如 何 工作 的 这 将 非常 有 帮助 ! 以 下 是 一 个 简明 
地 关于 chardet 模块 代码 结构 的 手册 。 chardet 库 太 大 ， 不 可 能 都 放 在 这 儿 ， 但 是 你 可 以 
从 chardet.feedparser .org 下 载 它 。 


编码 检测 就 是 放言 检测 。 


universaldetector .py 是 检测 算法 的 主 入 口 点 ， 它 包含 一 个 类 ， 即 universalpetector o (可 
能 你 会 认为 入 口 点 是 chardet/_init .py 中 的 detect WA, BEERE- NEENA 
法 ， 它 会 创建 universalpetector 对 象 ， 调 用 对 象 的 方法 ， 然 后 返回 其 结果 。 ) 


UniversalDetector 共 义 理 5 类 编码 方式 : 


1. 包含 字 节 顺序 标记 (BOM) 的 UTF-n。 它 包括 UTF-8， 大 尾 端 和 小 尾 端的 UTF-16， 还 有 所 
有 4 字 节 顺序 的 UTF-32 的 变 体 。 

2.， 转 义 编 码 ， 它 们 与 7 字 节 的 ASCII 编 码 兼容 ， 非 ASCII 编 码 的 字符 会 以 一 个 转 义 序列 打 
头 。 比 如 : ISO-2022-JP( 日 文 ) 和 HZ-GB-2312( 中 文 ). 

3， 多 字 节 编码 ， 在 这 种 编码 方式 中 ， 每 个 字符 使 用 可 变 长 度 的 字 节 表示 。 上 比如 : Big5( 中 
X), SHIFT_JIS(AX), EUC-KR( 韩 文 ) 和 缺少 BOM 标 记 的 UTF-8。 

4. 单字 节 编 码 ， 这 种 编码 方式 中 ， 每 个 字符 使 用 一 个 字 节 编码 。 例 如 : KOI8-R( 俄 语 )， 
windows-1255( 希 伯 来 语 ) 和 TIS-620( 泰 国语 )。 

5. windows-1252， 它 主要 被 根本 不 知道 字符 编码 的 中 层 管理 人 员 (middle manager) 在 
Microsoft Windows 上 使 用 。 


有 BOM 标 记 的 UTF-n 


如 果 文 本 以 BOM 标 记 打 头 ， 我 们 可 以 合理 地 假设 它 使 用 了 UTF-8，UTF-16 或 者 UTF-32 编 码 。 
(BOM 会 告诉 我 们 是 其 中 哪 一 种 ， 这 就 是 它 的 功能 。) 这 个 过 程 在 universalDetector 中 完 
成 ， 并 且 不 需要 深入 义理 ， 会 非常 快 地 返回 其 结果 。 


转 义 编 码 


如 果 文 本 包含 有 可 识别 的 能 指示 出 某 种 转 义 编码 的 转 义 序列 ， universalpetector 会 创建 一 
个 EscCharsetProber 对 象 (XE escprober.py 中 定义 ) ， 然 后 以 该 文本 调用 它 。 


EscCharSetProber 会 根据 HZ-GB-2312，1SO-2022-CN，1SO-2022-JP， 和 |SO-2022- 
KR( 在 escsm.py 中 定义 ) 来 创建 一 系列 的 状态 机 (state machine)。 EsccharsetProber 将 文本 一 
次 一 个 字 节 地 输入 到 这 些 状 态 机 中 。 如 果 某 一 个 状态 机 最 终 唯一 地 确定 了 字符 编 

码 ， EsccharsetProber 迅速 地 将 该 有 效 结果 返回 给 universalpetector ， 然 

后 universalpetector 将 其 返回 给 调用 者 。 如 果 某 一 状态 机 进入 了 非法 序列 ， 它 会 被 放弃 ， 然 
后 使 用 其 他 的 状态 机 继续 处 理 。 


多 字 节 编码 


假设 没有 BOM 标 记 ， universalpetector 会 检测 该 文本 是 否 包含 任何 高 位 字符 (high-bit 
characten)。 如 果 有 的 话 ， 它 会 创建 一 系列 的 “探测 器 (probers)”， 检 测 这 段 广西 是 否 使 用 多 字 
节 编 码 ， 单 字 节 编码 ， 或 者 作为 最 后 的 手段 ， 是 否 为 windows-1252 编码 。 


这 里 的 多 字 节 编码 探测 器 ， 即 MecsGroupProber (在 mbcsgroupprober.py 中 定义 ) ， 实 际 上 是 
一 个 管理 一 组 其 他 探测 器 的 shell， 它 用 来 处 理 每 种 多 字 节 编码 : Bigo, GB2312, EUC-TW, 
EUC-KR, EUC-JP, SHIFT JIS 和 UTF-8。  wBcseroupProber 将 文本 作为 每 一 个 特定 编码 探测 
器 的 输入 ， 并 且 检 测 其 结果 。 如 果 某 个 探测 器 报告 说 它 发 现 了 一 个 非法 的 字 节 序列 ， 那 么 该 
探测 器 则 会 被 放弃 ， 不 再 进一步 处 理 (因此 ， 换 句 话说 就 是 ， 任 何 

对 UniversalDetector . feed() 的 子 调用 都 会 忽略 那个 探测 器 ) 。 如 果 某 一 探测 器 报告 说 它 有 
足够 理由 确信 找到 了 正确 的 字符 编码 ， 那么 MBCSGroupProber 会 特 这 个 好 消息 传递 

给 UniversalDetector ， 然 后 UniversalDetector 将 结果 返回 给 调用 者 。 


大 多 数 的 多 字 节 编码 探测 器 从 类 MultiBytecharsetProber (定义 在 mbcharsetprober.py 中 ) 继 承 
而 来 ， 简单 地 挂 上 合适 的 状态 机 和 分 布 分 析 器 (distribution analyzer), RA 

让 MultiBytecharsetpProber 做 剩余 的 工作 。 MultiBytecharsetprober 将 文本 作为 特定 编码 状态 
机 的 输入 ， 每 次 一 个 字 节 ， 寻 找 能 够 指示 出 一 个 确定 的 正面 或 者 负面 结果 的 字 节 序列 。 同 
时 ， MultiByteCharSetProber 会 将 文本 作为 特定 编码 分 布 分 析 机 的 $i Ao 


分 布 分 析 机 (XE chardistribution.py 中 定义 ) 使 用 特定 语言 的 模型 ， 此 模型 中 的 字符 在 该 语 
言 被 使 用 得 最 频繁 。 —H MultiByteCharSetProber 把 足够 的 文本 给 了 分 布 分 析 机 ， 它 会 根据 其 
中 频繁 使 用 字符 的 数目 ， 字 符 的 总 数 和 特定 语言 的 分 配 比 (distribution ratio)， 来 计算 置信 度 
(confidence rating)。 如 果 和 置信 和 度 足 够 高 ， MultiBytecharsetProber 会 将 结果 返回 

给 MBCSGroupProber ， 然后 由 MBCSGroupProber 返回 给 UniversalDetector , 最 

后 universalpetector 将 其 返回 给 调用 者 。 


对 于 日 语 来 说 检测 会 更 加 困难 。 单 字符 的 分 布 分 析 并 不 总 能 区 别 出 Euc-JP 和 sHIFT_JIS ， 所 
以 SJISProber (在 sjisprober.py 中 定义 ) 也 使 用 双 字 符 的 分 布 分 

析 。 SJISContextAnalysis 和 EUCJPContextAnalysis (都 定义 在 jpcntx.py rn, 并 且 都 从 

类 JapaneseContextAnalysis 中 继承 ) 检测 文本 中 的 平 假 音节 字符 (Hiragana syllabary 
characher) 的 出 现 次 数 。 一 旦 处 理 了 足够 量 的 文本 ， 它 会 返回 一 个 置信 度 

给 SJISProber , SJISProber 检查 两 个 分 析 器 的 结果 ， 然 后 将 置信 度 高 的 那个 返回 


给 MBCSGroupProber 。 


单字 节 编码 
说 正经 的 ， 我 的 Unicode pony 哪 儿 去 了 ? 


单字 节 编 码 的 探测 器 ， 即 sBcs6roupProber (定义 在 sbcsgroupprober.py FH) ， 也 是 一 个 管理 
一 组 其 他 探测 器 的 shell， 它 会 尝试 单字 节 编 码 和 语言 的 每 种 组 

合 : Windows-1251 ， KOI8-R ， IS0-8859-5 , MacCyrillic ,  IBM855 ， and riBM866 ( 俄 

语 ) ; rso-8859-7 和 windows-1253 (希腊 语 ) ; Iso-8859-5 和 windows-1251 (保加利亚 

滞 ) ; IS0-8859-2 和 windows-1256 (和 僻 牙 利 语 ) ; Trs-e20 (泰国 


语 ) ; windows-1255 和 IS0-8859-8 ( 希 伯 来 语 )。 


< 


SBCSGroupProber 将 文本 输入 给 这 些 特定 编码 + 语言 的 探测 器 ， 然 后 检测 它们 的 返回 值 。 这 些 
探测 器 的 实现 为 某 一 个 类 ， 即 SingleByteCharSetProber (在 sbcharsetprober.py AREL), 它 使 
用 语言 模型 (language model) 作 为 其 参数 。 语 言 模型 定义 了 典型 文本 中 不 同 双 字 符 序 列 出 现 的 
频 度 。 SingleByteCharSetProber 处 理 文本 ， 统计 出 使 用 得 最 频繁 的 双 字 符 序列 。 一 旦 处 理 了 
足够 多 的 文本 ， 它 会 根据 频繁 使 用 的 序列 的 数目 ， 字 符 总 数 和 特定 语言 的 分 布 系数 来 计算 其 
置信 度 。 


希 伯 来 语 被 作为 一 种 特殊 的 情况 处 理 。 如 果 在 双 字 符 分 布 分 析 中 ， 文 本 被 认定 为 是 希 伯 来 
语 ， HebrewProber (在 hebrewprober .py 中 定义 ) 会 尝试 将 其 从 Visual Hebrew ( 源 文本 一 行 一 
行 地 被 " 反 向 "存储 ， 然 后 一 字 不 差 地 显示 出 来 ， 这 样 就 能 从 右 到 左 的 阅读 ) 和 Logical 
Hebrew ( 源 文 本 以 阅读 的 顺序 保存 ， 在 客户 端 从 右 到 左 进行 泻 染 ) 区 别 开 来 。 因 为 有 一 些 字 
符 在 两 种 希 伯 来 语 中 会 以 不 同 的 方式 编码 ， 这 依赖 于 它们 是 出 现在 单词 的 中 间或 者 末尾 ， 这 
样 我 们 可 以 合理 的 猜测 源 文本 的 存储 方向 ， 然 后 返回 合适 的 编码 方式 ( windows-1255 对 应 
Logical Hebrew， 或 者 Tso-8859-8 对 应 Visual Hebrew)。 


windows-1252 


如 果 universalDetector 在 文本 中 检测 到 一 个 高 位 字符 ， 但 是 其 他 的 多 字 节 编码 探测 器 或 者 单 
字 节 编码 探测 器 都 没有 返回 一 个 足够 可 靠 的 结果 ， 它 就 会 创建 一 个 LatiniProber 对 象 

(在 latiniprober.py 中 定义 )， 党 试 从 中 检测 以 windows-1252 方式 编码 的 英文 文本 。 这 种 检测 
存在 其 固有 的 不 可 靠 性 ， 因 为 在 不 同 的 编码 中 ， 英 文字 符 通常 使 用 了 相同 的 编码 方式 。 唯 一 
一 种 区 别 能 出 windows-1252 的 方法 是 通过 检测 常用 的 符号 ， 比 如 弯 引 号 (smart quotes), W5 
(curly apostrophes)， 版 权 符 号 (copyright symbol) 等 这 一 类 的 符号 。 如 果 可 

能 LatiniProber 会 自动 降低 其 置信 度 以 使 其 他 更 精确 的 探测 器 检 出 结果 。 


运行 2to3 
我 们 将 要 开始 移植 chardet 模块 到 Python 3 了 。Python 3 自 带 了 一 个 叫做 2to3 的 实用 脚本 ， 


它 使 用 Python 2 的 源 代码 作为 输入 ， 然 后 尽 其 可 能 地 将 其 转换 到 Python 3 的 规范 。 某 些 情 况 下 
这 很 简单 一 一 个 被 重 命名 或 者 被 移动 到 其 他 模块 中 的 函数 一 但 是 有 些 情况 下 ， 这 个 过 程 会 


变 得 非常 复杂 。 想 要 了 解 所 有 它 能 做 的 事情 ， 请 参考 附录 ， 使 用 2to3 将 代码 移植 到 Python 
3。 接 下 来 ， 我 们 会 首先 运行 一 次 2tos ， 将 它 作 用 在 chardet 模块 上 ， 但 是 就 如 你 即将 看 到 
的 ， 在 该 自动 化 工具 完成 它 的 魔法 表演 后 ， 仍 然 存 在 许多 工作 需要 我 们 来 收拾 。 


chardet 包 被 分 割 为 一 些 不 同 的 文件 ， 它 们 都 放 在 同一 个 目录 下 。 2tos 能 够 立即 处 理 多 个 文 
件 : 只 需要 将 目录 名 作为 命令 行 参数 传递 给 2to3 ， 然 后 它 会 轮流 处 理 每 个 文件 。 


C:NhomeNchardet» python c:\Python30\Tools\Scripts\2to3.py -w chardet\ 
RefactoringTool: Skipping implicit fixer: buffer 

RefactoringTool: Skipping implicit fixer: idioms 

RefactoringTool: Skipping implicit fixer: set literal 
RefactoringTool: Skipping implicit fixer: ws comma 

--- chardetN init .py (original) 

+++ chardetN init .py (refactored) 

@@ -18,7 +18,7 QQ 

. version = "1.0.1" 


def detect(aBuf): 
-—- import universaldetector-- 


«ins»* from . import universaldetector«/ins» 
u = universaldetector.UniversalDetector() 
u.reset() 


u.feed(aBuf) 
--- chardetNbig5prober.py (original) 
+++ chardetNbig5prober.py (refactored) 
QQ -25,10 +25,10 QQ 
# 02110-1301 USA 
THHHHHHHHHHHHHHHHHHHHHHHHE END LICENSE BLOCK ZZZTEEHBEHBHBHHBHHHHHHHHHHHHBHHE 


~~-from mbcharsetprober import MultiByteCharSetProber~~ 

~~-from codingstatemachine import CodingStateMachine~~ 

~~-from chardistribution import Big5DistributionAnalysis~~ 

~~-from mbcssm import Big5SMModel~~ 

<ins>+from .mbcharsetprober import MultiByteCharSetProber</ins> 
<ins>+from .codingstatemachine import CodingStateMachine</ins> 
<ins>+from .chardistribution import Big5DistributionAnalysis</ins> 
<ins>+from .mbcssm import Big5SMModel</ins> 


class Big5Prober(MultiByteCharSetProber): 
def | init (self): 
--- chardetNchardistribution.py (original) 
+++ chardetNchardistribution.py (refactored) 
QQ -25,12 «25,12 QQ 
# 02110-1301 USA 
THHHHHHHHHHHHHHBHHHHHHHHHHE END LICENSE BLOCK ZZZTEEHBHBHBHHBHHHHHHHHHHHHBHHE 


~~-import constants-- 

—-from euctwfreq import EUCTWCharToFreqOrder, EUCTW TABLE SIZE, EUCTW TYPICAL DISTRIBUTI 
—-from euckrfreq import EUCKRCharToFreqOrder, EUCKR TABLE SIZE, EUCKR TYPICAL DISTRIBUTI 
~~-from gb2312freq import GB2312CharToFreqOrder, GB2312 TABLE SIZE, GB2312 TYPICAL DISTRI 
—-from big5freq import Big5CharToFreqOrder, BIG5 TABLE SIZE, BIG5 TYPICAL DISTRIBUTION R 
—-from jisfreq import JISCharToFreqOrder, JIS TABLE SIZE, JIS TYPICAL DISTRIBUTION RATIO 
<ins>+from . import constants«/ins» 

<ins>+from .euctwfreq import EUCTWCharToFreqOrder, EUCTW TABLE SIZE, EUCTW TYPICAL DISTRI 
<ins>+from .euckrfreq import EUCKRCharToFreqOrder, EUCKR TABLE SIZE, EUCKR TYPICAL DISTRI 
<ins>+from .gb2312freq import GB2312CharToFreqOrder, GB2312 TABLE SIZE, GB2312 TYPICAL DI 
«ins»-from .big5freq import Big5CharToFreqOrder, BIG5 TABLE SIZE, BIG5 TYPICAL DISTRIBUTI 
<ins>+from .jisfreq import JISCharToFreqOrder, JIS TABLE SIZE, JIS TYPICAL DISTRIBUTION R 


ENOUGH. DATA THRESHOLD - 1024 
SURE YES - 0.99 


«mark». (it goes on like this for a while)«/mark» 


RefactoringTool: Files that were modified: 


RefactoringTool: 


chardetN init .py 


RefactoringTool: chardetNbig5prober.py 
RefactoringTool: chardetNchardistribution.py 
RefactoringTool: chardetNcharsetgroupprober.py 
RefactoringTool: chardetNcodingstatemachine.py 
RefactoringTool: chardetNconstants.py 
RefactoringTool: chardetNescprober.py 
RefactoringTool: chardetNescsm.py 
RefactoringTool: chardetNeucjpprober.py 
RefactoringTool: chardetNeuckrprober .py 
RefactoringTool: chardetNeuctwprober.py 
RefactoringTool: chardetNgb2312prober.py 
RefactoringTool: chardetNhebrewprober.py 
RefactoringTool: chardetNjpcntx.py 
RefactoringTool: chardetNlangbulgarianmodel.py 
RefactoringTool: chardetMlangcyrillicmodel.py 
RefactoringTool: chardetNlanggreekmodel.py 
RefactoringTool: chardetNlanghebrewmodel.py 
RefactoringTool: chardetNlanghungarianmodel.py 
RefactoringTool: chardetNlangthaimodel.py 
RefactoringTool: chardetNlatiniprober.py 
RefactoringTool: chardetNmbcharsetprober.py 
RefactoringTool: chardetNmbcsgroupprober.py 
RefactoringTool: chardetNmbcssm.py 
RefactoringTool: chardetNsbcharsetprober.py 
RefactoringTool: chardetNsbcsgroupprober.py 
RefactoringTool: chardetNsjisprober.py 
RefactoringTool: chardetNuniversaldetector.py 
RefactoringTool: chardetNutf8prober.py 


BM 


现在 我 们 对 测试 工具 一 test.py 一 应 用 2tos 脚本 。 





C:NhomeNchardet» python c:NPython30NToolsNScriptsN2to3.py -w test.py 


RefactoringTool: Skipping implicit fixer: buffer 
RefactoringTool: Skipping implicit fixer: idioms 
RefactoringTool: Skipping implicit fixer: set literal 
RefactoringTool: Skipping implicit fixer: ws comma 
--- test.py (original) 

+++ test.py (refactored) 
QQ -4,7 +4,7 QQ 

count = 0 

u = UniversalDetector() 

for f in glob.glob(sys.argv[1]): 

~~- print f.ljust(60),~~ 

<ins>+ print(f.ljust(60), end-' ')«/ins» 


u.reset() 
for line in file(f, 
u.feed(line) 
@@ -12,8 +12,8 QQ 
u.close() 
result = u.result 
if result['encoding']: 
-—- print result['encoding'], 'with confidence', 
«ins» print(result['encoding'], 
else: 
-—- Drint snos esult 一 
«ins» print('******** no result')«/ins» 
count += 1 
~~-print count, 'tests'-- 
«ins»*print(count, 'tests')«/ins» 
RefactoringTool: Files that were modified: 
RefactoringTool: test.py 


Sra): 


result['confidence']-- 
"with confidence', result['confidence'])«/ins» 


看 吧 ， 还 不 算 太 难 。 只 是 转换 了 一 些 impor 和 print 语 句 。 说 到 这 儿 ， 那 些 import 语 句 原来 到 底 
存在 什么 问题 呢 ? 为 了 回答 这 个 问题 ， 你 需要 知道 chardet 是 如 果 被 分 割 到 多 个 文件 的 。 


题 外 话 ， 关 于 多 文件 模块 


chardet 是 一 个 多 文件 模块 。 我 也 可 以 将 所 有 的 代码 都 放 在 一 个 文件 里 (并 命名 

为 chardet.py ), 但 是 我 没有 。 我 创建 了 一 个 目 录 ( 叫 做 chardet ), ORARIT E 录 里 创建 
了 一 个 _init .py 文件 。 如 果 Python 看 到 目录 里 有 一 个 init__.py X, 会 假设 该 目录 
里 的 所 有 文件 都 是 同一 个 模块 的 某 部 分 。 模 块 名 为 目录 的 名 字 。 目 录 Eo 目录 
中 的 其 他 文件 ， 甚 至 子 目录 中 的 也 行 。 〈 再 讲 一 分 钟 这 个 。) 但 是 整个 文件 集合 被 作为 一 个 
单独 的 模块 呈现 给 其 他 的 Python 代码 一 就 好 像 所 有 的 函数 和 类 都 在 一 个 .py 文件 里 。 


在 init .py 中 到 底 有 些 什么 ? 什么 也 没有 。 一 切 。 界 于 两 者 之 间 。 _ init .py 文件 不 需 
要 定义 任何 东西 ; 它 确实 可 以 是 一 个 空 文件 。 或 者 也 可 以 使 用 它 来 定义 我 们 的 主人 口 画 数 。 
或 者 把 我 们 所 有 的 函数 都 放 进去 。 或 者 其 他 画 数 都 放 ， 单 单 不 放 某 一 个 函数 .…… 


包含 有 int .py 文件 的 目录 总 是 被 看 作 一 个 多 文件 的 模块 。 没 有 _ init .py 文件 
的 目录 中 ， 那 些 .py 文件 是 不 相关 的 。 








我 们 来 看 看 它 上 是 怎样 工作 的 。 


>>> Import chardet 


[EC Usi S ES NEUE IO C 0 1^ lo ame F 
. package ^', ' path ', ' version ', 'detect'] 








«module 'chardet' from 'C:NPython31MlibNsite-packagesNchardetN init  .py'» 


. 除了 常见 的 类 属性 ， 在 chardet 模块 中 只 多 了 一 个 detect() ES ZA, 
2. 这 是 我 们 发 觉 chardet 模块 不 只 是 一 个 文件 的 第 一 个 线索 : "module" ti FX 
fF chardet/ 目录 中 的 init .py 文件 列 出 来 。 


我 们 再 来 上 晒 一 眼 init. py 文件 。 


u = universaldetector.UniversalDetector() 
u.reset() 

u.feed(aBuf) 

u.close() 

return u.result 


1. |. init .py 文件 定义 了 detect() KHA, BÆ chardet 库 的 主人 口 点 。 
2. 但 是 detect() 范 数 没有 任何 实际 的 代码 ! 事实 上 ， 它 所 做 的 事情 只 是 导入 
了 universaldetector 模块 然后 开始 调用 它 。 但 是 universaldetector 定义 在 哪儿 ? 


答案 就 在 那 行 古 怪 的 import 语句 中 : 


from . import universaldetector 


翻译 成 中 文 就 是 , “导入 universaldetector 模块 ; 它 跟 我 在 同一 目录 ，” 这 里 的 我 即 指 文 

件 chardet/ init .py 。 这 是 一 种 提供 给 多 文件 模块 中 文件 之 间 互 相 引 用 的 方法 ， 不 需要 担 
心 它 会 与 已 经 安装 的 搜索 路 径 中 的 模块 发 生命 名 冲突 。 该 条 import 语句 只 会 在 chardet/ E 
录 中 查找 universaldetector 模块 。 


这 两 条 概念 一 init .py 和 相对 导入 一 意味 着 我 们 可 以 将 模块 分 割 为 任意 多 个 

块 。 chardet 模块 由 36 个 .py 文件 组 成 一 36 ! 但 我 们 所 需要 做 的 只 是 使 

用 chardet/ init .py 文件 中 定义 的 某 个 函数 。 还 有 一 件 事情 没有 告诉 你 ， detect() 使 用 了 
相对 导入 来 引用 了 chardet/universaldetector.py 中 定义 的 一 个 类 ， 然 后 这 个 类 又 使 用 了 相对 
导入 引用 了 其 他 5 个 文件 的 内 容 ， 它 们 都 在 chardet/ 目录 中 。 





如 果 你 发 现 自己 正在 用 Python 写 一 个 大 型 的 库 (或 者 更 可 能 的 情况 是 ， 当 你 意识 到 你 
的 小 模块 已 经 变 得 很 大 的 时 候 ) ， 最 好 花 一 些 时 间 将 它 重 构 为 一 个 多 文件 模块 。 这 是 
Python 所 擅长 的 许多 事情 之 一 ， 那 就 利用 一 下 这 个 优势 吧 。 


修复 2to3 脚本 所 不 能 做 的 


False is invalid syntax 





你 确实 有 测试 样 例 ， 对 吧 ? 


现在 开始 真正 的 测试 : 使 用 测试 集运 行 测试 工具 。 由 于 测试 集 被 设计 成 可 以 覆盖 所 有 可 能 的 
代码 路 径 ， 它 是 用 来 测试 移植 后 的 代码 ， 保 证 bug 不 会 埋伏 在 某 个 地 方 的 一 种 不 错 的 办 法 。 


C:NhomeNchardet» python test.py tests\*\* 
Traceback (most recent call last): 
File "test.py", line 1, in «module» 
from chardet.universaldetector import UniversalDetector 
File "C:NhomeNchardetNchardetNuniversaldetector.py", line 51 
self.done - constants.False 
^ 


SyntaxError: invalid syntax 


唔 ， 一 个 小 麻烦 。 在 Python 3 中 ， False 是 一 个 保留 字 ， 所 以 不 能 把 它 用 作 变 量 名 。 我 们 来 
看 一 看 constants.py 来 确定 这 是 在 哪儿 定义 的 。 以 下 是 constants.py 在 执行 2to3 脚本 之 前 
原来 的 版 本 。 


import _ builtin _ 
if not hasattr(_ builtin , 'False'): 
False = 0 
True = 1 
else: 
False =  builtin .False 
True =  builtin .True 


这 一 段 代 码 用 来 允许 库 在 低 版 本 的 Python 2 中 运行 ， 在 Python 2.3 以 前 ，Python 没 有 内 置 
的 bool 类 型 。 这 段 代 码 检测 内 置 的 True 和 False 常量 是 否 缺 失 ， 如 果 必 要 的 话 则 定义 它 
们 。 


但 是 ，Python 3 总 是 有 bool 类 型 的 ， 所 以 整个 这 片 代 码 都 没有 必要 。 最 简单 的 方法 是 将 所 有 
的 constants.True 和 constants.False 都 分 别 替 换 成 True 和 False ， 然 后 将 这 段 死 代码 
从 constants.py 中 移 除 。 


所 以 universaldetector.py 中 的 以 下 行 : 


self.done - constants.False 


变 成 了 


self.done = False 


啊 哈 ， 是 不 是 很 有 满足 感 ? 代码 不 仅 更 得了， 而 且 更 具 可 读 性 。 


No module named constants 
是 时 候 再 运行 一 次 test.py 了 ， 看 看 它 能 走 多 远 。 


C:NhomeNchardet» python test.py tests\*\* 
Traceback (most recent call last): 
File "test.py", line 1, in «module» 
from chardet.universaldetector import UniversalDetector 
File "C:MhomeNchardetNchardetNuniversaldetector.py", line 29, in «module- 
import constants, sys 
ImportError: No module named constants 


说 什么 了 ?不 存在 叫做 constants 的 模块 ?可 是 当然 有 constants 这 个 模块 了 。 它 就 
在 chardet/constants.py rh, 


还 记得 什么 时 候 2to3 脚本 会 修复 所 有 那些 导入 语句 吗 ? 这 个 包 内 有 许多 的 相对 导入 — BI, 

在 同一 个 库 中 ， 导 入 其 他 模块 的 模块 一 但 是 在 Python 3 中 相对 导入 的 逻辑 已 经 变 了 。 在 
Python 2 中 ， 我 们 只 需要 import constants ， 然 后 它 就 会 首先 在 chardet/ 目录 中 查找 。 在 
Python 3 中 ， 所 有 的 导入 语句 默认 使 用 绝对 路 径 。 如 果 想 要 在 Python 3 中 使 用 相对 导入 ， 你 需 
要 显 式 地 说 明 : 


from . import constants 


但 是 。 2to3 脚本 难道 不 是 要 自动 修复 这 些 的 吗 ? 好 吧 ， 它 确实 这 样 做 了 ， 但 是 该 条 导入 语句 
在 同一 行 组 合 了 两 种 不 同 的 导入 类 型 : 库 内 部 对 constants 的 相对 导入 ， 还 有 就 是 对 sys 模 
块 的 绝对 导入 ， sys 模块 已 经 预 装 在 了 Python 的 标准 库 里 。 在 Python 2 里 ， 我 们 可 以 将 其 组 


合 到 一 条 导入 语句 中 。 在 Python 3 中 ， 我 们 不 能 这 样 做 ， 并 且 2tos 脚本 也 不 是 那样 聪明 ， 它 
不 能 把 这 条 导入 语句 分 成 两 条 。 


解决 的 办 法 是 把 这 条 导入 语句 手动 的 分 成 两 条 。 所 以 这 条 二 合 一 的 导入 语句 : 


import constants, sys 


需要 变 成 两 条 分 享 的 导入 语句 : 


from . import constants 
import sys 


在 chardet 库 中 还 分 散 着 许多 这 类 问题 的 变 体 。 某 些 地 方 它 是 “ import constants, sys ” ; H 
他 一 些 地 方 则 是 “ import constants, re ”。 修 改 的 方法 是 一 样 的 : 手工 地 将 其 分 割 为 两 条 语 
句 ， 一 条 为 相对 导入 准备 ， 另 一 条 用 于 绝对 导入 。 


eea 


iat! 


Name 'file' is not defined 


open() 代 替 了 原来 的 fle()。PapayaWhip 则 替代 了 原来 的 black 
再 来 一 次 ， 运 行 test.py 来 执行 我 们 的 测试 样 例 .… 


C:\home\chardet> python test.py tests\*\* 
tests\ascii\howto.diveintomark.org.xml 
Traceback (most recent call last): 
File "test.py", line 9, in «module» 
for line in file(f, 'rb') 
NameError: name 'file' is not defined 


这 一 条 也 出 乎 我 的 意外 ， 因 为 在 记忆 中 我 一 直 都 在 使 用 这 种 风格 的 代码 。 在 Python 2 里 ， 全 
局 的 file() KAE open) ERZAXBJ—^ T 3114, open) 男 数 是 打开 文件 用 于 读 取 的 标准 方法 。 
在 Python 3 中 ， 全 局 的 file() 男 数 不 再 存在 了 ， 但 是 open() 还 保留 着 。 


这 样 的 话 ， 最 简单 的 解决 办 法 就 是 将 file() 调用 替换 为 对 open() 的 调用 : 


for line in open(f, 'rb'): 
这 即 是 我 关于 这 个 问题 想 要 说 的 。 


Can't use a string pattern on a bytes-like object 


现在 事情 开始 变 得 有 趣 了 。 对 于 “有趣 ， "ARBJEUSGECRRHUSR HGEAGASC. " 


C:MhomeNchardet» python test.py tests\*\* 
testsNasciiMhowto.diveintomark.org.xml 
Traceback (most recent call last): 
File "test.py", line 10, in «module» 
u.feed(line) 
File "C:NhomeNchardetNchardetNuniversaldetector.py", line 98, in feed 
if self. highBitDetector.search(aBuf): 
TypeError: can't use a string pattern on a bytes-like object 


我 们 先 来 看 看 self. highBitDetector 是 什么 ， 然 后 再 来 调试 这 个 错误 。 它 被 定义 
在 UniversalDetector 类 的 _init 方法 中 。 
class UniversalDetector: 


def _ init (self): 
self. highBitDetector = re.compile(r'[Nx80-NxFF]') 


这 段 代 码 预 编译 一 条 正则 表达 式 ， 它 用 来 查找 在 128-255 (0x80-0xFF) 范 围 内 的 非 ASCII 字 
符 。 等 一 下 ， 这 似乎 不 太 准 确 ; 我 需要 对 更 精确 的 术语 来 描述 它 。 这 个 模式 用 来 在 128-255 范 
围 内 查找 非 ASCII 的 bytes。 

问题 就 出 在 这 儿 了 。 


在 Python 2 中 ， 字 符 串 是 一 个 字 节 数组 ， 它 的 字符 编码 信息 被 分 开 记 录 着 。 如 果 想 要 Python 2 
跟踪 字符 编码 ， 你 得 使 用 Unicode 编 码 的 字符 串 ( u'' )。 但 是 在 Python 3 中 ， 字 符 串 永远 都 是 
Python 2 中 所 谓 的 Unicode 编 码 的 字符 串 一 即 ，Unicode 字 符 数 组 〈 可 能 存在 可 变 长 字 节 ) 。 
由 于 这 条 正则 表达 式 是 使 用 字符 串 模式 定义 的 ， 所 以 它 只 能 用 来 搜索 字符 串 一 再 强调 一 次 ， 
字符 数组 。 但 是 我 们 所 搜索 的 并 非 字符 串 ， 它 是 一 个 字 节 数组 。 看 一 看 traceback， 该 错误 发 
生 在 universaldetector.py 


def feed(self, aBuf): 


if self. mInputState -- ePureAscii: 
if self. highBitDetector.search(aBuf): 


aBuf 是 什么 ?让 我 们 原 路 回 到 调用 universalbetector.feed() 的 地 方 。 有 一 处 地 方 调用 了 


它 ， 是 测试 工具 ， test.py o 


u = UniversalDetector() 


for line in open(f, 'rb'): 
u.feed(line) 


非 字 符 数 组 ， 而 是 一 个 字 节 数组 。 


在 此 多 我们 找到 了 答案 : _ universalpetector.feed() 方法 中 ， aBuf 是 从 磁 瘟 文件 中 读 到 的 一 
行 。 仔 细 看 一 看 用 来 打开 文件 的 参数 : 'rb' 。 'r' 是 用 来 读 取 的 ; OK， 没 什么 了 不 起 的 ， 
我 们 在 读 取 文件 。 啊 ， 但 是 'b， 是 用 以 读 取 "二进制" 数据 的 。 如 果 没 有 标记 'p' ， for 循环 
会 一 行 一 行 地 读 取 文件 ， 然 后 将 其 转换 为 一 个 字符 串 一 Unicode 编 码 的 字符 数组 — 根据 系统 
默认 的 编码 方式 。 但 是 使 用 'b' 标记 后 ， for 循环 一 行 一 行 地 读 取 文件 ， 然 后 将 其 按 原 样 存 
和 储 为 字 节 数组 。 该 字 节 数组 被 传递 给 了 Universalpetector.feed() 方法 ， 最 后 给 了 预 编译 好 
的 正则 表达 式 ， self. highBitDetector , 用 来 搜索 高 位 ... 字 符 。 但 是 没有 字符 ; 有 的 只 是 字 
Po AUR. 


我 们 需要 该 正则 表达 式 搜 索 的 并 不 是 字符 数组 ， 而 是 一 个 字 节 数组 。 


只 要 我 们 认识 到 了 这 一 点 ， 解 决 办 法 就 有 了 。 使 用 字符 串 定义 的 正则 表达 式 可 以 搜索 字符 

串 。 使 用 字 节 数组 定义 的 正则 表达 式 可 以 搜索 字 节 数组 。 我 们 只 需要 改变 用 来 定义 正则 表达 
式 的 参数 的 类 型 为 字 节 数 组 ， 就 可 以 定义 一 个 字 节 数组 模式 。 (还 有 另外 一 个 该 问题 的 实 

例 ， 在 下 一 行 。) 


class UniversalDetector: 
def _ init (self): 
~~- self. highBitDetector = re.compile(r'[\x80-\xFF]')~~ 
-—- self. escDetector = re.compile(r'(N033|-1()')-- 
«ins»* self. highBitDetector = re.compile(b'[Nx80-NxFF] ' )«/ins» 
«ins»* self. escDetector = re.compile(b'(N033|-1[)')«/ins» 
self. mEscCharSetProber - None 
self. mCharSetProbers - [] 
self.reset() 


在 整个 代码 库 内 搜索 对 re 模块 的 使 用 发 现 了 另外 两 个 该 类 型 问题 的 实例 ， 出 现 

在 charsetprober.py 文件 中 。 再 次 ， 以 上 代码 将 正则 表达 式 定 义 为 字符 串 ， 但 是 却 将 它们 作 
用 在 auf E, m aBuf 是 一 个 字 节 数组 。 解 决 方案 还 是 一 样 的 : 将 正则 表达 式 模式 定义 为 字 
节 数 组 。 


class CharSetProber : 


def filter high bit only(self, aBuf): 
cues aBuf = re.sub(r'([Nx00-Nx7F])*', ' ', aBuf)-- 
<ins>+ aBuf = re.sub(b'([\x00-\x7F])+', b' ', aBuf)</ins> 
return aBuf 


def filter without english letters(self, aBuf): 
-—- aBuf = re.sub(r'([A-Za-z])*', ' ', aBuf)-- 


«ins»* aBuf = re.sub(b'([A-Za-z])*', b' ', aBuf)«/ins» 
return aBuf 


Can't convert 'bytes' objectto str implicitly 


奇怪 ， 越 来 越 不 寻常 了 .… 


C:NhomeNchardet» python test.py tests\*\* 
testsNasciiMnowto.diveintomark.org.xml 
Traceback (most recent call last): 
File "test.py", line 10, in «module» 
u.feed(line) 
File "C:NhomeNchardetNchardetNuniversaldetector.py", line 100, in feed 
elif (self. mInputState == ePureAscii) and self. escDetector.search(self. mLastChar + 
TypeError: Can't convert 'bytes' object to str implicitly 


E - E] 


在 此 存在 一 个 Python 解释 器 与 代码 风格 之 间 的 不 协调 。 TypeError 可 以 出 现在 那 一 行 的 任意 
地 方 ， 但 是 traceback 不 能 明确 定 地 指出 错误 的 位 置 。 可 能 是 第 一 个 或 者 第 二 个 条 件 语句 
(conditional)， 对 traceback 来 说 ， 它 们 是 一 样 的 。 为 了 缩小 调试 的 范围 ， 我 们 需要 把 这 条 代码 
分 割 成 两 行 ， 像 这 样 








elif (self. mInputState == ePureAscii) and \ 
self. escDetector.search(self. mLastChar + aBuf): 


然后 再 运行 测试 工具 : 


C:NhomeNchardet» python test.py tests\*\* 
testsNasciiMnowto.diveintomark.org.xml 
Traceback (most recent call last): 
File "test.py", line 10, in «module» 
u.feed(line) 
File "C:MhomeNchardetNchardetNuniversaldetector.py", line 101, in feed 
self. escDetector.search(self. mLastChar + aBuf): 
TypeError: Can't convert 'bytes' object to str implicitly 


啊 哈 ! 错误 不 在 第 一 个 条 件 语句 上 ( self. mrnputstate == ePureascii )， 是 第 二 个 的 问题 。 但 
是 ， 是 什么 引发 了 TypeErior ARTE ?也许 你 会 想 search 方法 需 和 要 另外 一 种 类 型 的 参数 ， 
但 是 那 桩 的 话 ， 就 不 会 产生 当前 这 种 traceback 了 。Python 函 数 可 以 使 用 任何 类 型 参数 ; 只 要 
传递 了 正确 数目 的 参数 ， 画 数 就 可 以 执行 。 如 果 我 们 给 函数 传递 了 类 型 不 匹配 的 参数 ， 代 码 
可 能 就 会 崩溃 ， 但 是 这 样 一 来 ，traceback 就 会 指向 函数 内 部 的 某 一 代码 块 了 。 但 是 当前 得 到 
的 traceback 告 诉 我 们 ， e search() ESZBJL. PRELALIR ES EMH 

在 + 操作 符 上 ， 该 操作 用 于 构建 最 终 会 传递 给 search) 方法 的 参数 。 


从 前 一 次 调试 的 过 程 中 ， 我 们 已 经 知道 aut 是 一 个 字 节 数组 。 那 么 self._mLastchar 又 是 什 
么 呢 ? 它 是 一 个 在 reset) 中 定义 的 实例 变量 ， 而 rese) 方法 刚好 就 是 被 init () 调用 
的 。 


class UniversalDetector: 
def | init (self): 
self. highBitDetector = re.compile(b'[Nx80-NxFF]') 
self. escDetector = re.compile(b'(N033|-()') 
self. mEscCharSetProber - None 
self. mCharSetProbers - [] 
«mark»self.reset()«/mark» 


def reset(self): 
self.result = ['encoding': None, 'confidence': 0.0) 
self.done - False 
self. mStart - True 
self. mGotData - False 
self. mInputState - ePureAscii 
«mark»self. mLastChar = ''«/mark» 


现在 我 们 找到 问题 的 症结 所 在 了 。 你 发 现 了 吗 ? self. mtastchar 是 一 个 字符 串 ， 而 aBuf 是 
一 个 字 节 数组 。 而 我 们 不 允许 对 字符 串 和 字 节 数组 做 连接 操作 一 即使 是 空 串 也 不 行 。 


那么 ， self._mLastchar 到 底 是 什么 呢 ? 在 feed() 方法 中 ， 在 traceback 报 告 的 位 置 以 下 几 行 
就 是 了 。 
if self. mInputState -- ePureAscii: 
if self. highBitDetector.search(aBuf): 
self. mInputState - eHighbyte 
elif (self. mInputState == ePureAscii) and \ 


self. escDetector.search(self. mLastChar + aBuf): 
self. mInputState - eEscAscii 


«mark»self. mLastChar = aBuf[-1]«/mark» 


feed() 方法 被 一 次 一 次 地 调用 ， 每 次 都 传递 给 它 几 个 字 节 。 该 方法 处 理 好 它 收 到 的 字 节 
(以 aBuf 传递 进去 的 ) ， 然 后 将 最 后 一 个 字 节 保存 在 self._mLastchar 中 ， 以 便 下 次 调用 时 
还 会 用 到 。 (在 多 字 节 编码 中 ， feed) 在 调用 的 时 候 可 能 只 收 到 了 某 个 字符 的 一 半 ， 然 后 下 
次 调用 时 另 一 半 才 被 传 到 。) 但 是 因为 au 已 经 变 成 了 一 个 字 节 数组 ， 所 

以 self. mLastchar 也 需要 与 其 匹配 。 可 以 这 样 做 : 


def reset(self): 


人 self. mLastChar = ''-- 
«ins»-* self. mLastChar = b''«/ins» 


在 代码 库 中 搜索 ”mLastchar ",  mbcharsetprober.py 中 也 发 现 一 个 相似 的 问题 ， 与 之 前 不 同 的 
是 ， 它 记录 的 是 最 后 2 个 字符 。 MutiBytecharsetProber 类 使 用 一 个 单字 符 列 表 来 记录 末尾 的 
两 个 字符 。 在 Python 3 中 ， 这 需要 使 用 一 个 整数 列表 ， 因 为 实际 上 它 记 录 的 并 不 是 是 字符 ， 
而 是 字 节 对 象 。 ( 字 节 对 象 即 范围 在 o-255 内 的 整数 。) 


class MultiByteCharSetProber(CharSetProber): 
def _ init (self): 
CharSetProber. init (self) 
self. mDistributionAnalyzer - None 
self. mCodingSM - None 
~~- self. mLastChar = ['\x00', '\x00']~~ 
<ins>+ self. mLastChar = [0, 0]«/ins» 


def reset(self): 
CharSetProber.reset(self) 
if self. mCodingSM: 
self. mCodingSM.reset() 
if self. mDistributionAnalyzer: 
self. mDistributionAnalyzer.reset() 
~~- self. mLastChar = ['\x00', '\x00']~~ 
<ins>+ self. mLastChar = [0, 0]«/ins» 


Unsupported operand type(s) for +: 'int' and 'bytes' 
有 好 消息 ， 也 有 坏 消 息 。 好 消息 是 我 们 一 直 在 前 进 着 .… 


C:NhomeNchardet» python test.py tests\*\* 
testsNasciiMnowto.diveintomark.org.xml 
Traceback (most recent call last): 
File "test.py", line 10, in «module» 
u.feed(line) 
File "C:NhomeNchardetNchardetNuniversaldetector.py", line 101, in feed 
self. escDetector.search(self. mLastChar + aBuf): 
TypeError: unsupported operand type(s) for +: 'int' and 'bytes' 


.. 坏 消息 是 ， 我 们 好 像 一 直 都 在 原 地 踏步 。 


但 我 们 确实 一 直 在 取得 进展 ! 真 的 ! 即使 traceback 在 相同 的 地 方 再 次 出 现 ， 这 一 次 的 错误 毕 
竟 与 上 次 不 同 。 前 进 ! 那么 ， 这 次 又 是 什么 错误 呢 ? 上 一 次 我 们 确认 过 了 ， 这 一 行 代码 不 应 
该 会 再 做 连接 int 型 和 字 节 数组 ( bytes ) 的 操作 。 事 实 上 ， 我 们 刚刚 花 了 相当 长 一 段 时 间 来 
保证 self._mLastchar 是 一 个 字 节 数组 。 它 怎么 会 变 成 int lE? 


答案 不 在 上 几 行 代码 中 ， 而 在 以 下 几 行 。 


if self. mInputState == ePureAscii: 
if self. highBitDetector.search(aBuf): 
self. mInputState - eHighbyte 
elif (self. mInputState == ePureAscii) and 和 
self. escDetector.search(self. mLastChar + aBuf): 
self. mInputState - eEscAscii 


«mark»self. mLastChar = aBuf[-1]«/mark» 


字符 串 中 的 元 素 仍 然 是 字符 串 ， 字 节 数 组 中 的 元 素 则 为 整数 。 


该 错误 没有 发 生 在 feed() 方法 第 一 次 被 调用 的 时 候 ; 而 是 在 第 二 次 调用 的 过 程 中 ， 

在 self. mLastchar 被 赋值 为 aBuf 末尾 的 那个 字 节 之 后 。 好 吧 ， 这 又 会 有 什么 问题 呢 ? 因为 
获取 字 节 数组 中 的 单个 元 素 会 产生 一 个 整数 ， 而 不 是 字 节 数组 。 它 们 之 间 的 区 别 ， 请 看 以 下 
在 交互 式 shell 中 的 操作 : 


>>> len(aBuf) 

mLastChar = aBuf[-1] 

191 

«class 'int'» 

Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 


TypeError: unsupported operand type(s) for +: 'int' and 'bytes' 


>>> mLastChar 
b'Nxbf' 


b'NxbfNxefNxbbNxbf ' 


1， 定 义 一 个 长 度 为 3 的 字 节 数组 。 

2. 字 节 数 组 的 最 后 一 个 元 素 为 191。 

3， 它 是 一 个 整数 。 

4. 连接 整数 和 字 节 数组 的 操作 是 不 允许 的 。 我 们 重复 了 在 universaldetector.py 中 发 现 的 那 
个 错误 。 


5. 了 啊 ， 这 就 是 解决 办 法 了 。 使 用 列表 分 片 从 数组 的 最 后 一 个 元 素 中 创建 一 个 新 的 字 节 数 
组 ， 而 不 是 直接 获取 这 个 元 素 。 即 ， 从 最 后 一 个 元 素 开 始 切割 ， 直 到 到 达 数 组 的 末尾 。 
当前 mLastchar 是 一 个 长 度 为 1 的 字 节 数组 。 

6. 连接 长 度 分 别 为 1 和 3 的 字 节 数组 ， 则 会 返回 一 个 新 的 长 度 为 4 的 字 节 数组 。 


所 以 ， 为 了 保证 universaldetector.py 中 的 feed() 方法 不 管 被 调用 多 少 次 都 能 够 正常 运行 ， 
我 们 需要 将 self._mLastchar 实例 化 为 一 个 长 度 为 0 的 字 节 数组 ， 并 且 保 证 它 一 直 是 一 个 字 节 
数组 。 


self. escDetector.search(self. mLastChar + aBuf): 
self. mInputState - eEscAscii 


~~- self. mLastChar = aBuf[-1]-- 
«ins»* self. mLastChar = aBuf[-1:]«/ins» 


ord() expected string of length 1, but int found 


ER Y 93 7? 就 要 完成 了 .…. 


C:MhomeNchardet» python test.py tests\*\* 
testsNasciiMhowto.diveintomark.org.xml ascii with confidence 1.0 
testsNBig5N0804.blogspot.com.xml 
Traceback (most recent call last): 
File "test.py", line 10, in «module» 
u.feed(line) 
File "C:NhomeNchardetNchardetNuniversaldetector.py", line 116, in feed 
if prober.feed(aBuf) -- constants.eFoundIt: 
File "C:NhomeNchardetNchardetNcharsetgroupprober.py", line 60, in feed 
st - prober.feed(aBuf) 
File "C:NhomeNchardetNchardetNutf8prober.py", line 53, in feed 
codingState - self. mCodingSM.next state(c) 
File "C:NhomeNchardetNchardetNcodingstatemachine.py", line 43, in next state 
byteCls - self. mModel['classTable'][ord(c)] 
TypeError: ord() expected string of length 1, but int found 


OK, AA c 是 int 类 型 的 ， 但 是 ord() 需要 一 个 长 度 为 1 的 字符 串 。 就 是 这 样 了 。 c 在 哪 
儿 定 义 的 ? 


# codingstatemachine.py 

def next state(self, c): 
4 for each byte we get its class 
# if it is first byte, we also get byte length 
byteCls - self. mModel['classTable'][ord(c)] 


不 是 这 儿 ; 此 处 c 只 是 被 传递 给 了 next state() HA. RUAL- AEA. 


# utf8prober.py 
def feed(self, aBuf): 
for c in aBuf: 
codingState - self. mCodingSM.next state(c) 


看 到 了 吗 ? 在 Python 2 中 ， asut 是 一 个 字符 串 ， 所 以 c 就 是 一 个 长 度 为 1 的 字符 串 。 ( 那 就 
是 我 们 通过 通 历 字符 串 所 得 到 的 一 所 有 的 字符 ， 一 次 一 个 。) 因为 现在 aBuf 是 一 个 字 节 数 
组 ， 所 以 c 变 成 了 int 类 型 的 ， 而 不 再 是 长 度 为 1 的 字符 串 。 也 就 是 说 ， 没 有 必要 再 调 

用 ord() KAT, Až c 已 经 是 int 了 1 





这 样 修改 : 


def next_state(self, c): 

# for each byte we get its class 

# if it is first byte, we also get byte length 
-—- byteCls - self. mModel['classTable'][ord(c)]-- 
«ins» byteCls - self. mModel['classTable'][c]«/ins» 


在 代码 库 中 搜索 ord(c) ”后 ， 发 现 sbcharsetprober.py 中 也 有 相似 的 问题 .… 


# sbcharsetprober.py 
def feed(self, aBuf): 
if not self. mModel['keepEnglishLetter']: 
aBuf - self.filter without english letters(aBuf) 
aLen - len(aBuf) 
if not aLen: 
return self.get state() 
for c in aBuf: 
«mark»order = self. mModel['charToOrderMap'][ord(c)]«/mark» 


... 还 有 latiniprober.py ... 


# latiniprober.py 
def feed(self, aBuf): 
aBuf - self.filter with english letters(aBuf) 
for c in aBuf: 
«mark»charClass = Latini CharToClass[ord(c)]«/mark» 


c 在 aBuf 中 通 历 ， 这 就 意味 着 它 是 一 个 整数 ， 而 非 字符 串 。 解 决 方案 是 相同 的 : 
把 ord(c) 就 替换 成 C o 


# sbcharsetprober.py 
def feed(self, aBuf): 
if not self. mModel['keepEnglishLetter']: 
aBuf = self.filter without english letters(aBuf) 
aLen - len(aBuf) 
if not aLen: 
return self.get state() 
for c in aBuf: 
mus order = self. mModel['charToOrderMap'][ord(c) ]-- 
«ins» order - self. mModel['charToOrderMap'][c]«/ins» 


# latiniprober.py 
def feed(self, aBuf): 
aBuf = self.filter with english letters(aBuf) 
for c in aBuf: 
-—- charClass - Latini CharToClass[ord(c)]-- 
«ins» charClass - Latini CharToClass[c]«/ins» 


Unorderable types: int() >= str() 


继续 我 们 的 路 吧 。 


C:NhomeNchardet» python test.py tests\*\* 
testsNasciiMnowto.diveintomark.org.xml ascii with confidence 1.0 
testsNBig5N0804.blogspot.com.xml 
Traceback (most recent call last): 
File "test.py", line 10, in «module» 
u.feed(line) 
File "C:NhomeNchardetNchardetNuniversaldetector.py", line 116, in feed 
if prober.feed(aBuf) -- constants.eFoundIt: 
File "C:MhomeNchardetNchardetNcharsetgroupprober.py", line 60, in feed 
st - prober.feed(aBuf) 
File "C:MhomeNchardetNchardetNsjisprober.py", line 68, in feed 
self. mContextAnalyzer.feed(self. mLastChar[2 - charLen :], charLen) 
File "C:NhomeNchardetNchardetNjpcntx.py", line 145, in feed 
order, charLen = self.get order(aBuf[i:i-*2]) 
File "C:MhomeNchardetNchardetNjpcntx.py", line 176, in get order 
if ((aStr[0] >= 'Nx81') and (aStr[0] <= 'Nx9F')) or \ 
TypeError: unorderable types: int() »- str() 


这 都 是 些 什 么 ?9 "Unorderable types" ? 字 节 数组 与 字符 串 之 间 的 差异 引起 的 问题 再 一 次 出 现 
了 。 看 一 看 以 下 代码 : 


class SJISContextAnalysis(JapaneseContextAnalysis): 
def get order(self, aStr): 
if not aStr: return -1, 1 
# find out current char's byte length 
«mark»if ((aStr[0] >= 'Nx81') and (aStr[0] <= 'Nx9F')) or N«/mark» 
((astr[0] >= 'NxE0') and (aStr[0] <= 'NxFC')): 
charLen - 2 
else: 
charLen - 1 


astr 从 何 而 来 ? 再 深入 栈 内 看 一 看 : 


def feed(self, aBuf, aLen): 


i = self. mNeedToSkipCharNum 
while i « aLen: 
«mark»order, charLen = self.get order(aBuf[i:i*2])«/mark» 


看 ， 是 aBuf ， 我 们 的 老 战 友 。 从 我 们 在 这 一 章 中 所 遇 到 的 问题 你 也 可 以 猜 到 了 问题 的 关键 
了 ， 因 为 aut 是 一 个 字 节 数组 。 此 处 feed() 方法 并 不 是 整个 地 将 它 传 递 出 去 ; 而 是 先 对 它 
执行 分 片 操作 。 就 如 你 在 这 章 前 面 看 到 的 ， 对 字 节 数组 执行 分 片 操 作 的 返回 值 仍 然 为 字 节 数 
组 ， 所 以 传递 给 get order() 方法 的 astr 仍然 是 字 节 数组 。 


那么 以 下 代码 是 怎样 处 理 astr 的 呢 ? 它 将 该 字 节 第 一 个 元 素 与 长 度 为 1 的 字符 串 进 行 比较 操 
作 。 在 Python 2， 这 是 可 以 的 ， 因 为 astr 和 aBuf 都 是 字符 串 ， 所 以 astr[o] 也 是 字符 串 ， 
并 且 我 们 允许 比较 两 个 字符 串 的 是 否 相 等 。 但 是 在 Python 3 中 ， astr 和 aBuf 都 是 字 节 数 
组 ， 而 astr[o] 就 成 了 一 个 整数 ， 没 有 执行 显 式 地 强制 转换 的 话 ， 是 不 能 对 整数 和 字符 串 执 
行 相 等 性 比较 的 。 


在 当前 情况 下 ， 没 有 必要 添加 强制 转换 ， 这 会 让 代码 变 得 更 加 复 杀 。 astr[o] 产生 一 个 整 
数 ; 而 我 们 所 比较 的 对 象 都 是 常量 (constant)。 那 就 把 长 度 为 1 的 字符 串 换 成 整数 吧 。 我 们 也 
顺便 把 astr 换 成 aBuf 吧 ， 因 为 astr 本 来 也 不 是 一 个 字符 串 。 


class SJISContextAnalysis(JapaneseContextAnalysis): 
== def get order(self, aStr):-- 
=~- if not aStr: return -1, 1-- 
«ins» def get order(self, aBuf):«/ins» 
«ins»- if not aBuf: return -1, 1</ins> 
# find out current char's byte length 
-—- if ((aStr[0] >= 'Nx81') and (aStr[0] <= 'Nx9F')) or \~~ 
meds ((aBuf[0] >= 'NxEO') and (aBuf[0] <= 'NxFC')):-- 


«ins» if ((aBuf[0] >= 0x81) and (aBuf[0] <= Ox9F)) or \</ins> 
«ins»* ((aBuf[0] >= OxE0) and (aBuf[0] <= OxFC)):«/ins» 
charLen - 2 
else: 


charLen = 1 


# return its order if it is hiragana 
-—- if len(aStr) » 1:-- 
Em if (aStr[0] == 'N202') and \~~ 
-—- (astr[1] >= 'Nx9F') and \~~ 
~~- (astr[1] <= 'NxF1!'):-- 
d return ord(aStr[1]) - Ox9F, charLen-- 


«ins» if len(aBuf) » 1:«/ins» 

«ins»* if (aBuf[0] == 0x202) and N«/ins» 
«ins» (aBuf[1] >= Ox9F) and N«/ins» 

«ins» (aBuf[1] <= OxF1):«/ins» 

«ins»* return aBuf[1] - Ox9F, charLen«c/ins» 


return -1, charLen 


class EUCJPContextAnalysis(JapaneseContextAnalysis): 
~~- def get order(self, aStr):-- 
=~- if not aStr: return -1, 1-- 


<ins>+ def get_order(self, aBuf):</ins> 
<ins>+ if not aBuf: return -1, 1</ins> 
# find out current char's byte length 
~~- if (aStr[0] == 'Nx8bE') or \~~ 
d ((aStr[0] >= 'NxA1') and (aStr[0] <= 'NxFE')):-- 
«ins» if (aBuf[0] == Ox8E) or N«/ins» 
«ins» ((aBuf[0] >= OxA1) and (aBuf[0] <= OxFE)):«/ins» 
charLen - 2 
-—- elif aStr[0] == 'Nx8F':-- 
«ins» elif aBuf[0] == Ox8F:«/ins» 
charLen - 3 
else: 


charLen = 1 


# return its order if it is hiragana 
~~- if len(aStr) > 1:-- 
-—- if (aStr[0] == 'NxA4') and \~~ 
~~- (aStr[1] >= 'NxA1') and \~~ 
== (astr[1] <= 'NxF3!):-- 
~~- return ord(aStr[1]) - 0xA1, charLen~~ 


«ins» if len(aBuf) > 1:«/ins» 

«ins» if (aBuf[0] -- OxA4) and N«/ins» 

«ins»* (aBuf[1] >= 0xA1) and N«/ins» 

«ins» (aBuf[1] <= 0xF3):«/ins» 

«ins» return aBuf[1] - OxA1, charLen«c/ins» 


return -1, charLen 


在 代码 库 中 查找 ord() KWA, iE chardistribution.py 中 也 发 现 了 同样 的 问题 (更 确切 地 

说 ， 在 以 下 这 些 类 

中 ， EUCTWDistributionAnalysis ,  EUCKRDistributionAnalysis ,  GB2312DistributionAnalysis , 
Big5DistributionAnalysis ,  SJISDistributionAnalysis 和 EUCJPDistributionAnalysis ) o 对 

于 它们 存在 的 问题 ， 解 决 办 法 与 我 们 对 jpentx.py 中 的 


类 EUCJPContextAnalysis 和 SJISContextanalysis 的 做 法 相似 。 


Global name 'reduce' is not defined 


再 次 陷入 中 断 .… 


C:NhomeNchardet» python test.py tests\*\* 
testsNasciiNhowto.diveintomark.org.xml ascii with confidence 1.0 
testsNBig5N0804.blogspot.com.xml 
Traceback (most recent call last): 
File "test.py", line 12, in «module» 
u.close() 
File "C:MhomeNchardetNchardetNuniversaldetector.py", line 141, in close 
proberConfidence - prober.get confidence() 
File "C:MhomeNchardetNchardetNlatiniprober.py", line 126, in get confidence 
total = reduce(operator.add, self. mFreqCounter) 
NameError: global name 'reduce' is not defined 


根据 官方 手册 : What's New In Python 3.0, KRX reduce 已 经 从 全 局 名 字 空 间 中 移出 ， 放 
到 了 functools 模块 中 。 引 用 手册 中 的 内 容 : “如果 需 要 ， 请 使 用 functools.reduce() , 9996 
的 情况 下 ， 显 式 的 for 循环 使 代码 更 有 可 读 性 。” 你 可 以 从 Guido van Rossum 的 一 篇 日 志 中 
看 到 关于 这 项 决策 的 更 多 细节 : The fate of reduce() in Python 3000, 





def get confidence(self): 
if self.get state() -- constants.eNotMe: 
return 0.01 


«mark-total = reduce(operator.add, self. mFreqCounter)«/mark- 


reduce() KAUTA ADEA 一 一 个 函数 ， 一 个 列表 〈 更 严格 地 说 ， 可 迭代 的 对 象 就 行 了 ) 
一 然后 将 函数 增 量 式 地 作用 在 列表 的 每 个 元 素 上 。 换 句 话 说 ， 这 是 一 种 良好 而 高 效 的 用 于 综 
合 (add up) 列 表 所 有 元 素 并 返回 其 结果 的 方法 。 


这 种 强大 的 技术 使 用 如 此 频繁 ， 所 以 Python 就 添加 了 一 个 全 局 的 sum) HŽ 


def get confidence(self): 
if self.get state() -- constants.eNotMe: 
return 0.01 


cue total - reduce(operator.add, self. mFreqCounter)-- 
«ins»* total = sum(self. mFreqCounter)«/ins» 


由 于 我 们 不 再 使 用 operator 模块 ， 所 以 可 以 在 文件 最 上 方 移 除 那 条 import 语句 。 


from .charsetprober import CharSetProber 
from . import constants 
~~- import operator-- 


可 以 开始 测试 了 吧 ? (快要 吐血 的 样子 ...) 


C:NhomeNchardet» python test.py tests\*\* 


testsNasciiMhowto.diveintomark.org.xml ascii with confidence 1.0 
testsNBig5N0804.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5*Nblog.worren.net.xml Big5 with confidence 0.99 
testsNBig5Ncarbonxiv.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5Ncatshadow.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5Ncoolloud.org.tw.xml Big5 with confidence 0.99 
tests NBig5Ndigitalwall.com.xml Big5 with confidence 0.99 
testsNBig5Nebao.us.xml Big5 with confidence 0.99 
testsNBig5Nfudesign.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5Nkafkatseng.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5Nke207.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5NMleavesth.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5NMletterlego.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5Mlinyijen.blogspot.com.xml Big5 with confidence 0.99 
tests NBig5Nmarilynwu.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5Nnyblog.pchome.com.tw.xml Big5 with confidence 0.99 
testsNBig5Noui-design.com.xml Big5 with confidence 0.99 
testsNBig5Nsanwenji.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5Nsinica.edu.tw.xml Big5 with confidence 0.99 
testsNBig5Nsylvia1976.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5Ntlkkuo.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5Ntw.blog.xubg.com.xml Big5 with confidence 0.99 
testsNBig5Nunoriginalblog.com.xml Big5 with confidence 0.99 
testsNBig5Nupsaid.com.xml Big5 with confidence 0.99 
testsNBig5Nillythecop.blogspot.com.xml Big5 with confidence 0.99 
testsNBig5Nytc.blogspot.com.xml Big5 with confidence 0.99 
testsNEUC- JPNaivy.co.jp.xml EUC-JP with confidence 0.99 
testsNEUC- JPNakaname . main.jp.xml EUC-JP with confidence 0.99 


testsNEUC- JPNarclamp.jp.xml EUC-JP with confidence 0.99 


316 tests 
ab 了 


天 哪 ， 伙 计 ， 她 真 的 欢快 地 跑 起 来 了 ! /me does a little dance 


Uu + 


D FR 
我 们 学 到 了 什么 ? 


1. 尝试 大 批量 地 把 代码 从 Python 2 移植 到 Python 3 上 是 一 件 让 人 头疼 的 工作 。 没 有 捷径 。 它 
确实 很 困难 。 

2. 自动 化 的 2to3 脚本 确实 有 用 ， 但 是 它 只 能 做 一 些 简单 的 辅助 工作 一 函数 重 命名 ， 模 块 
重 命名 ， 语 法 修改 等 。 之 前 ， 它 被 认为 是 一 项 会 让 人 印象 深刻 的 大 工程 ， 但 是 最 后 ， 实 
际 上 它 只 是 一 个 能 智能 地 执行 查找 替换 机 器 人 。 

3. 在 移植 chardet 库 的 时 候 遇 到 的 头号 问题 就 是 : 字符 串 和 字 节 对 象 之 间 的 差异 。 在 我 们 
这 个 情况 中 ， 这 种 问题 比较 明显 ， 因 为 整个 chardet 库 就 是 一 直 在 执行 从 字 节 流 到 字符 
串 的 转换 。 但 是 “ 字 节 流 " 出 现 的 方式 会 远 超出 你 的 想象 。 以 "二进制" 模式 读 取 文件 ?我 们 


会 获得 字 节 流 。 获 取 一 份 web 页 面 ? 调用 web API? 这 也 会 返回 字 节 流 。 

.你 需要 彻底 地 了 解 所 面 对 的 程序 。 如 果 那 段 程序 是 自己 写 自 然 非常 好 ， 但 是 至 少 ， 我 们 
需要 够 理解 所 有 星 涩 难 懂 的 细节 。 因 为 bug 可 能 埋伏 在 任何 地 方 。 

， 测 试 样 例 是 必要 的 。 没 有 它们 的 话 不 要 尝试 着 移植 代码 。 我 自信 移植 后 的 chardet 模块 
能 在 Python 3 中 工作 的 唯一 理由 是 ， 我 一 开始 就 使 用 了 测试 集合 来 检验 所 有 主要 的 代码 
路 径 。 如 果 你 还 没有 任何 测试 集 ， 在 移植 代码 之 前 自己 写 一 些 吧 。 如 果 你 的 测试 集合 太 
小 ， 那 么 请 写 全 。 如 果 测 试 集 够 了 ， 那 么 ， 我 们 就 又 可 以 开始 历险 了 。 


Chapter 16 打包 Python X: X 


" You'll find the shame is like the pain; you only feel it once. " — Marquise de Merteuil, 
Dangerous Liaisons 


VK AN 


读 到 这 里 ， 你 可 能 是 想 要 发 布 一 个 Python 脚本 ， 库 ， 框 架 ， 或 者 应 用 程序 。 太 棒 了 ! 世界 需 
要 更 多 的 Python 代码 。 


Python 3 自 带 一 个 名 为 Distutils 的 打包 框架 。Distutils 包含 许多 功能 : 构建 工具 (为 你 所 准 
备 ) ， 安 装 工具 (为 用 户 所 准 各 ) ， 数 据 包 格式 (为 搜索 引擎 所 准 各 ) 等 。 它 集成 了 Python 
安装 包 索 引 (PYPP) ， 一 个 开源 Python 类 库 的 中 央 资 料 库 。 


这 些 Distutils 的 不 同 功能 以 setup script 为 中 心 ， 一 般 被 命名 为 ”setup.py 。 事 实 上 ， 你 已 经 在 
本 书 中 见 过 一 些 Distutils 安装 脚本 。 在 《HTTP Web Services》 一 章 中 ， 我 们 使 用 Distutils 
来 安装 nttplib2 ， 而 在 《案例 研究 : 将 chardet 移植 到 Python 3》 一 章 中 ， 我 们 用 它 安装 


chardet o 


在 本 章 中 ， 你 将 学 习 chardet 和 httplib2 的 安装 脚本 如 何 工 作 ， 并 将 逐步 (FA) 发 布 自 
己 的 Python 软件 。 


# chardet's setup.py 
from distutils.core import setup 


setup( 
name - "chardet", 
packages - ["chardet"], 
version - "1.0.2", 
description - "Universal encoding detector", 
author - "Mark Pilgrim", 
author email = "markQdiveintomark.org", 


url - "http://chardet.feedparser.org/", 
download url = "http://chardet.feedparser.org/download/python3-chardet-1.0.1.tgz", 
keywords = ["encoding", "ii8n", "xml"], 
classifiers - [ 
"Programming Language :: Python", 
"Programming Language :: Python :: 3", 
"Development Status :: 4 - Beta", 
"Environment :: Other Environment", 
"Intended Audience :: Developers", 
"License :: OSI Approved :: GNU Library or Lesser General Public License (LGPL)", 
"Operating System :: OS Independent", 
"Topic :: Software Development :: Libraries :: Python Modules", 
"Topic :: Text Processing :: Linguistic", 
l; 
long description = """N 
Universal character encoding detector 


Detects 
- ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants) 
- Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simplified Chinese) 
- EUC-JP, SHIFT JIS, ISO-2022-JP (Japanese) 
- EUC-KR, ISO-2022-KR (Korean) 
- KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5, windows-1251 (Cyrillic) 
- IS0-8859-2, windows-1250 (Hungarian) 
- IS0-8859-5, windows-1251 (Bulgarian) 
- windows-1252 (English) 
- IS0-8859-7, windows-1253 (Greek) 
- IS0-8859-8, windows-1255 (Visual and Logical Hebrew) 
- TIS-620 (Thai) 


This version requires Python 3 or later; a Python 2 version is available separately. 


nnum" 


) 
p Bg] 


chardet 和 httplib2 都 是 开源 的 ， 但 这 并 没有 要 求 你 在 特定 的 许可 下 发 布 你 自己 的 
Python 库 。 本 章 所 描述 的 过 程 对 任何 Python 软件 都 适用 ， 无 论 它 使 用 什么 许可 证 








Distutils 无 法 为 你 完成 的 工作 


发 布 第 一 个 Python 包 是 一 项 艰巨 的 过 程 。 (发 布 第 二 个 相对 容易 一 些 。) Distutils 试图 尽 可 
能 多 的 自动 完成 一 些 工 作 ， 但 是 仍然 有 一 些 事情 你 必须 自己 做 。 


e 选择 一 种 许可 协议 。. 这 是 一 个 复杂 的 话题 ， 充 满 了 派别 斗争 和 危险。 如 果 想 将 软件 发 布 
为 开源 软件 ， 我 冒昧 地 提出 五 点 忠告 : 


1. 不 要 撰写 自己 的 许可 证 。 
2. 不 要 撰写 自己 的 许可 证 。 
3， 不 要 撰写 自己 的 许可 证 。 
4. 许可 证 并 不 一 定 必须 是 GPL ， 但 它 需要 与 GPL 兼容 。 


5. 不 要 撰写 自己 的 许可 证 。 

。 使 用 PyPI 分 类 系统 对 软件 进行 分 类 。 我 将 在 本 章 后 面 的 部 分 解释 这 是 什么 意思 。 

。 写 “ 自 述 ”(read me) 文 件 。 不 要 在 这 一 点 音 惜 精力 投入 。 至 少 ， 它 应 该 让 你 的 用 户 了 解 你 
的 软件 可 以 干什么 并 知道 如 何 安装 它 。 


目录 结构 


要 开始 打包 Python 软件 ， 必 须 先 将 文件 和 目录 安排 好 。 httplib2 的 目录 树 如 下 : 


ne a 

De ctun 

1. 创建 根 目 录 来 保存 所 有 的 目录 和 文件 。 将 其 以 Python 模块 的 名 字 命 名 。 

2. 为 了 适应 Windows 用 户 ，" 自 述 " 文 件 应 包含 .txt 扩展 名 ， 而 且 它 应 该 使 用 Windows 
风格 回 车 符 。 不 能 公信 因为 你 使 用 了 一 个 优秀 的 文本 编辑 器 ， 它 从 命令 行 运行 并 包括 它 
自己 的 宏 语 言 ， 而 需要 让 你 的 用 户 为 难 。 〈 你 的 用 户 使 用 记事 本 。 虽然 可 悲 ， 但 却 是 事 
实 。) 即使 你 工作 在 Linux 或 Mac OS X 环境 下 ， 优 秀 的 文本 编辑 器 之 无 疑问 地 会 有 一 
个 选项 ， 人 允许 将 文件 以 Windows 风格 回 车 符 来 保存 。 

3. Distutils 安装 脚本 应 命名 为 setup.py， 除 非 你 有 一 个 很 好 的 理由 不 这 样 做 。 但 你 并 没有 一 
个 很 好 的 理由 不 这 样 做 。 

4. 如果 你 的 Python 软件 只 包含 一 个 单一 的 .py 文件 ， 你 应 该 把 它 和 "自述 "文件 以 及 安装 脚 
本 放 到 根 目 录 下 。 但 httplib2 并 不 是 单一 的 .py 文件 ， 它 是 一 个 多 文件 模块 。 但 是 
没关系 ! 只 需 在 根 目录 下 放置 httplib2 目录 ， 这 样 在 httplib2/ 根 目 录 下 就 会 有 一 个 
包含 init .py 文件 的 httplib2/ 目录 。 这 并 不 是 一 个 难题 ， 事 实 上 ， 它 可 以 简化 打 
包 过 程 。 

chardet 目录 看 起 来 有 些 不 同 。 像 httplib2 一 样 ， 它 是 一 个 多 文件 模块 ， 所 以 在 

chardet/ 根 目 录 下 有 一 个 chardet/ 目录 。 除 了 _ README.txt 文件 ， 在 docs/ 目录 下 ， 

chardet 还 有 HTML 一 一 格式 化 文档 。 该 docs/ 目录 包含 多 个 .ntm 和 .css 文件 和 

images/ 子 目录 ， 其 中 包含 几 个 .png 和 .gif 文件 。〈 稍 后 你 会 发 现 ， 这 将 是 很 重要 

的 。) 此 外 ， 对 于 (L)GPL 许可 的 软件 ， 它 包含 一 个 单独 的 copYIN6.txt 文件 ， 其 中 包含 

LGPL 许可 证 的 完整 内 容 。 


chardet/ 
--COPYING.txt 
--setup.py 
--README.txt 
--docs/ 
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--images/ ... 


+ 一 一 一 一 一 一 一 + 一 + 一 + 一 + 一 


- chardet/ 
- init .py 


--big5freq.py 


+ 一 + 一 + 一 
1 


编写 安 释 脚本 


Distutils 安装 脚本 是 一 份 Python 脚本 。 从 理论 上 讲 ， 它 可 以 做 任何 Python 可 以 做 的 事情 。 
在 实践 中 ， 安 装 脚本 应 该 做 尽 可 能 少 的 事情 并 尽 可 能 按 标准 的 方式 做 。 安 装 脚本 应 该 简单 。 
安装 过 程 越 奇 异 ， 错 误 报 告 也 会 更 奇特 。 


每 个 Distutils 安装 脚本 的 第 一 行 总 是 相同 的 : 


from distutils.core import setup 


该 行 导入 setup() KA, Æ Distutils 的 主 入 口 点 。95% 的 Distutils 安装 脚本 仅 由 一 个 对 
setup() 方法 的 调用 组 成 。 〈 这 完全 是 我 脐 造 的 统计 ， 但 如 果 你 的 Distutils 安装 脚本 所 做 的 
比 仅 仅 调 用 setup() 方法 更 多 ， 你 会 有 一 个 好 的 理由 。 你 有 一 个 好 的 理由 吗 ?我 并 不 这 么 认 
为 。) 


setup() 方法 可 以 有 几 十 个 参数 。 为 了 使 每 个 参与 者 都 能 清楚 ， 你 必须 对 每 个 参数 使 用 命名 
变量 。 这 不 只 是 一 项 约定 ， 还 是 一 项 硬性 要 求 。 如 果 党 试 以 非 命 名 变量 调用 setu) 方法 ， 
安装 脚本 会 崩溃 。 


下 面 的 命名 变量 是 必需 的 : 


。 name， 安 装 包 的 名 称 。 

e Version， 安 装 包 的 版 本 。 

e author， 您 的 全 名 。 

e author_email， 您 的 邮件 地 址 。 

e url， 项 目 主页 。 如 果 没 有 一 个 单独 的 项 目 网 站 ， 这 里 可 以 是 安装 包 的 PyPI 的 页 面 地 
址 。 


虽然 以 下 内 容 不 是 必须 的 ， 但 我 也 建议 你 把 他 们 包括 在 你 的 安装 脚本 里 : 


e description， 在 线 的 项 目 摘要 。 

e long_description， 以 reStructuredText format 格式 编写 的 多 行 字 符 串 。PyPl 将 其 转换 
为 HTML 并 在 安装 包 中 显示 它 。 

e classifiers， 下 一 节 中 将 讲述 的 特别 格式 化 字符 串 。 





安装 脚本 中 用 到 的 元 数据 具体 定义 在 PEP 314 中 。 
现在 让 我 们 看 看 chardet 的 安装 脚本 。 它 包含 所 有 这 些 要 求 的 和 建议 的 参数 ， 还 有 一 个 我 没 


有 提 到 : packages o 


from distutils.core import setup 
setup( 
name = 'chardet' 
Oi Ed - TU chardet']«/mark», 
version - '1.0.2' 
deserinio = = 'Universal encoding detector', 
author='Mark Pilgrim', 


在 分 发 过 程 中 ， 这 个 packages 参数 凸显 出 一 个 不 幸 的 词汇 表 重生 。 我 们 一 曾 在 谈论 正在 构 
建 的 “安装 包 ”( 并 将 潜在 地 出 现在 Python 包 索引 中 ) 。 但 是 ， 这 并 不 是 packages 参数 所 指 代 
的 。 它 指 代 的 是 chardet 模块 是 一 个 多 文件 模块 这 一 事实 有 时 也 被 称 为 .. .“ 包 ”。 packages 
参数 告诉 Distutils 去 包含 chardet/ 目录 ， 它 的 init .py 文件 ， 以 及 所 有 其 他 构成 
chardet 模块 的 .py 文件 。 这 还 算 比 较 重 要 ; 如 果 你 忘记 了 包含 实际 的 代码 ， 那 么 所 有 这 
些 关于 文件 和 元 数据 的 愉快 交谈 都 将 是 无 关 紧 要 的 。 


ORE 


Python 包 索 引 (*PyPI") 包含 成 千 上 万 的 Python 库 。 正 确 的 分 类 数据 将 让 人 们 更 容易 找到 你 
的 包 。PyPl 让 你 以 类 别 的 形式 浏览 包 。 你 甚至 可 以 选择 多 个 类 别 来 缩小 搜索 范围 。 分 类 不 是 
你 可 以 忽略 的 不 可 见 的 元 数据 ! 


你 可 以 通过 传递 classifiers 参数 给 Distutils 的 setup() 方法 来 给 你 的 软件 分 
类 。 classifers 参数 是 一 个 字符 串 列表 。 这 些 字符 串 不 是 任意 形式 的 。 所 有 的 分 类 字符 串 应 
该 来 自 PyPI 上 的 列表 。 


分 类 是 可 选 的 。 你 可 以 写 一 个 不 包含 任何 分 类 的 Distutils 安装 脚本 。 不 要 这 样 做 。 你 应 该 总 
是 至 少 包括 以 下 分 类 


e <b0 编 程 语言 . 特别 的 ， 你 应 该 包 
插 "Programming Language :: Python" 和 " programming Language :: Python :: 3 "。 如 果 你 
不 包括 这 些 ， Hu NEIN 3 的 库 列表 中 ， 它 链接 自 每 
个 pypi.python.org 单 页 的 侧 边 


。 许可 证 . 当 我 评价 一 个 第 三 方 库 的 时 候 ， 这 绝对 是 我 寻找 的 第 一 个 东西 。 不 要 让 我 〈 花 太 
多 时 间 ) 寻找 这 个 重要 的 信息 。 不 要 包含 一 个 以 上 的 许可 证 分 类 ， 除 非 你 的 软件 明确 地 
在 多 许可 证 下 分 发 。 (不 要 在 多 许可 证 下 发 布 你 的 软件 ， 除 非 你 不 得 不 这 样 做 。 不 要 强 
迫 别 人 这 样 做 。 许 可 证 已 经 足够 让 人 头痛 了 ， 不 要 使 情况 变 得 更 糟 。) 

。 操作 系统 0. 如 果 你 的 软件 只 能 运行 于 Windows (或 Mac OS X 或 Linux) ， 我 想 要 尽早 知 
道 。 如 果 你 的 软件 不 包含 任何 特定 平台 的 代码 并 可 以 在 任何 平台 运行 ， 请 使 用 分 类 
"Operating System :: OS Independent" 。 多 操作 系统 分 类 仅 在 你 的 软件 在 不 同 平台 需 
特别 支持 时 使 用 。 (这 并 不 常见 。) 


我 还 建议 你 包括 以 下 分 类 : 


e. 开发 状态 . 你 的 软件 品质 适合 beta 发 布 么 ?适合 Alpha 发 布 么 ?还 是 Pre-alpha? 在 这 里 面 
选择 一 个 吧 。 要 诚实 点 。 

。 目标 用 户 . 谁 会 下 载 你 的 软件 ?最 常见 的 选项 包括 : Developers 、 
End Users/Desktop 、 science/Research 和 System Administrators o 

e 框架 . 如 果 你 的 软件 是 像 Django 或 Zope 这 样 较 大 的 框架 的 插件 ， 请 包含 适当 的 
Framework 分 类 。 如 果 不 是 ， 请 忽略 它 。 

e 主题 . 有 大 量 的 主题 可 供 选 择 ， 选 择 所 有 的 适用 项 。 


包 分 类 的 优秀 范例 


作为 例子 ， 下 面 是 Django 的 分 类 。 它 是 一 个 运行 在 Web 服务 器 上 的 ， 可 用 于 生产 环境 的 ， 
跨 平 台 的 ， 使 用 BSD 授权 的 Web 应 用 程序 框架 。 (Dijango 还 没有 与 Python 3 兼容 ， 因 此 ， 
并 没有 列 出 Programming Language :: Python :: 3 分 类 。 ) 


Programming Language :: Python 

License :: OSI Approved :: BSD License 
Operating System :: 0S Independent 
Development Status :: 5 - Production/Stable 


Environment :: Web Environment 
Framework :: Django 
Intended Audience :: Developers 


Topic :: Internet :: WWW/HTTP 

Topic :: Internet :: WWW/HTTP :: Dynamic Content 

Topic :: Internet :: WWW/HTTP :: WSGI 

Topic :: Software Development :: Libraries :: Python Modules 


下 面 是 chardet 的 分 类 。 它 就 是 在 《案例 研究 : 将 chardet 移植 到 Python 3》 一 章 提 到 的 
字符 编码 检测 库 。 chardet 是 高 质量 的 ， 跨 平台 的 ， 与 Python 3 兼容 的 ， LGPL 许可 的 库 。 
它 旨 在 让 开发 者 将 其 集成 进 自己 的 产品 。 


Programming Language :: Python 

Programming Language :: Python :: 3 

License :: OSI Approved :: GNU Library or Lesser General Public License (LGPL) 
Operating System :: OS Independent 

Development Status :: 4 - Beta 

Environment :: Other Environment 

Intended Audience :: Developers 

Topic :: Text Processing :: Linguistic 

Topic :: Software Development :: Libraries :: Python Modules 


以 下 是 在 本 章 开头 我 提 到 的 httplib2 模块 一 一 HTTP 的 分 类 。 httplib2 是 一 个 测试 品质 
的 ， 跨 平台 的 ，MIT 许可 证 授权 的 ， 为 Python 开发 者 准 各 的 模块 。 


Programming Language :: Python 
Programming Language :: Python :: 3 
License :: OSI Approved :: MIT License 


Operating System :: OS Independent 

Development Status :: 4 - Beta 

Environment :: Web Environment 

Intended Audience :: Developers 

Topic :: Internet :: WWW/HTTP 

Topic :: Software Development :: Libraries :: Python Modules 


通过 清单 指定 附加 文件 
默认 情况 下 ，Distutils 将 把 下 列 文件 包含 在 你 的 发 布 包 中 : 


@ README.txt 


*  setup.py 
e 由 列 在 packages 参数 中 的 多 模块 文件 所 需 的 .py 文件 
e ft py. modules 参数 中 列 出 的 单独 .py 文件 


这 将 覆盖 httplib2 项 目的 所 有 文件 。 但 对 于 chardet 项 目 ， 我 们 还 希望 包含 copYING.txt 
许可 文件 和 含有 图 像 与 HTML 文件 的 整个 docs/ 目录 。 要 让 Distutils 在 构建 chardet 发 布 
包 时 包含 这 些 额外 的 文件 和 目录 ， 你 需要 创建 一 个 manifest file - 


清单 文件 是 一 个 名 为 ”MANIFEST.in 的 文本 文件 。 将 它 放置 在 项 目的 根 目 录 下 ， 同 
README.txt 和 setup.py 一 起 。 清 单 文件 并 不 是 Python 脚本 ， 它 是 文本 文件 ， 其 中 包含 一 
系列 Distutils 定义 格式 的 命令 。 清 单 命令 允许 你 包含 或 排除 特定 的 文件 和 目录 。 


以 下 是 chardet 项 目的 全 部 清单 文件 : 


1， 第 一 行 是 不 言 自明 的 : 包含 项 目 根 目 录 的 coPYING.txt 文件 。 

2. 第 二 行 有 些 复杂 。 recursive-include fp4 zm 一 个 目录 名 和 至 少 一 个 文件 名 。 文件 名 并 
不 限于 特定 的 文件 ， 可 以 包含 通配符 。 这 行 的 意思 是 “看 到 在 项 目 根 目 录 下 的 dos B 
录 了 吗 ? 在 该 目录 下 ( 递 为 地 ) 查找 .html 、 .css 、 .png 和 .gif 文件 。 我 希望 将 
他 们 都 包含 在 我 的 发 布 包 中 。” 


所 有 的 清单 命令 都 将 保持 你 在 项 目 目录 中 所 设置 的 目录 结构 。 recursive-include 命令 不 会 将 
一 组 .html 和 .png 文件 放置 在 你 的 发 布 包 的 根 目 录 下 。 它 将 保持 现 有 的 docs/ 目录 结 
构 ， 但 只 包含 该 目录 内 匹配 给 定 的 通配符 的 文件 。 (之 前 我 并 没有 提 到 ， chardet 的 文档 实 
际 上 由 XML 语言 写成 ， 并 由 一 个 单独 的 脚本 转换 为 HTML 。 我 不 想 在 发 布 包 中 包含 XML x 
件 ， 只 包含 HTML 文件 和 图 像 。) 





清单 文件 有 自己 独特 的 格式 。 详 见 分 发 指定 文件 和 清单 文件 命 爸 。 




















重申 : 仅仅 在 你 需要 包含 一 些 Distutils 不 会 默认 包含 的 文件 时 才 创 建 清单 文件 。| 如 果 你 确实 
需要 一 个 清单 文件 ， 它 应 该 只 包含 那些 Distutils 不 会 自动 包含 的 文件 和 目录 。 


检查 安装 支 脚本 的 错 ; ik 


有 许多 事情 需要 留意 。Distutils 带 有 一 个 内 置 的 验证 命令 ， 它 检查 是 否 所 有 必须 的 元 数据 都 体 
现在 你 的 安装 脚本 中 。 例 如 ， 如 果 你 忘记 包含 version 参数 ，Distutils 会 提醒 你 。 


c:\Users\pilgrim\chardet> c:\python31\python.exe setup.py check 
running check 
warning: check: missing required meta-data: version 


当 你 包含 了 version 参数 (和 所 有 其 他 所 需 的 元 数据 ) 时 ， check 命令 将 如 下 所 示 : 


c:\Users\pilgrim\chardet> c:\python31\python.exe setup.py check 
running check 


创建 发 布 源 


Distutils 支持 构建 多 种 类 型 的 发 布 包 。 至 少 ， 你 应 该 建立 一 个 “ 源 代 码 分 发 ” 其 中 包含 源 代 
码 ， 你 的 Distutils 安装 脚本 , "read me "文件 和 你 想 要 包含 其 他 文件 。 为 了 建立 一 个 源 代码 分 
发 ， 传 递 sdist 命令 给 你 的 Distutils 安装 脚本 。 


c:NUsersNpilgrimNchardet» «mark»c:Npython31Npython.exe setup.py sdist«/mark» 
running sdist 

running check 

reading manifest template 'MANIFEST.in' 

writing manifest file 'MANIFEST' 

creating chardet-1.0.2 

creating chardet-1.0.2Nchardet 

creating chardet-1.0.2Ndocs 

creating chardet-1.0.2NdocsNimages 

copying files to chardet-1.0.2... 

copying COPYING -» chardet-1.0.2 

copying README.txt -> chardet-1.0.2 

copying setup.py -» chardet-1.0.2 

copying chardetN init .py -> chardet-1.0.2Nchardet 
copying chardetNbig5freq.py -> chardet-1.0.2Nchardet 


copying chardetNuniversaldetector.py -» chardet-1.0.2Nchardet 
copying chardetNutf8prober.py -» chardet-1.0.2Nchardet 

copying docsNfaq.html -> chardet-1.0.2Ndocs 

copying docsMhistory.html -> chardet-1.0.2Ndocs 

copying docsNMhow-it-works.html -> chardet-1.0.2Ndocs 

copying docsNindex.html -> chardet-1.0.2Ndocs 

copying docsNMlicense.html -> chardet-1.0.2Ndocs 

copying docsNsupported-encodings.html -> chardet-1.0.2Ndocs 
copying docsNusage.html -> chardet-1.0.2Ndocs 

copying docsNimagesNcaution.png -> chardet-1.0.2NdocsNimages 
copying docsNimagesNimportant.png -> chardet-1.0.2NdocsNimages 
copying docsNimagesNnote.png -> chardet-1.0.2NdocsNimages 
copying docsNimagesNpermalink.gif -> chardet-1.0.2NdocsNimages 
copying docsNimagesNtip.png -> chardet-1.0.2NdocsNimages 
copying docsNimagesNwarning.png -> chardet-1.0.2NdocsNimages 
creating dist 

creating 'distNchardet-1.0.2.zip' and adding 'chardet-1.0.2' to it 
adding 'chardet-1.0.2NCOPYING' 

adding 'chardet-1.0.2NPKG-INFO' 

adding 'chardet-1.0.2NREADME.txt' 

adding 'chardet-1.0.2Nsetup.py' 

adding 'chardet-1.0.2Nchardet'Nbigb5freq.py' 

adding 'chardet-1.0.2Nchardet'Nbig5prober.py' 


adding 'chardet-1. 
adding 'chardet-1. 
adding 'chardet-1. 
adding 'chardet-1. 
adding 'chardet-1. 
adding 'chardet-1. 
adding 'chardet-1. 
adding 'chardet-1. 
adding 'chardet-1. 
adding 'chardet-1. 
adding 'chardet-1. 
adding 'chardet-1. 
adding 'chardet-1. 
adding 'chardet-1. 


.2NchardetNuniversaldetector.py' 
.2Nchardet*Nutf8prober .py' 
.2NchardetN init  .py' 
.2NdocsNfaq.html' 
.2NdocsNhistory.html' 
.2NdocsMhow-it-works.html' 
.2NdocsNindex.html' 
.2NdocsMlicense.html' 
.2NdocsNsupported-encodings.html' 
.2NdocsNusage.html' 
.2NdocsNimagesNcaution.png' 
.2NdocsNimagesNimportant.png' 
.2NdocsNimagesNnote.png' 
.2NdocsNimagesNpermalink.gif' 
adding 'chardet-1.0.2NdocsNimagesNtip.png' 

adding 'chardet-1.0.2NdocsNimagesNwarning.png' 
removing 'chardet-1.0.2' (and everything under it) 


OOOOOOOOOOOOOOOO 


有 几 件 事情 需要 注意 : 


。 Distutils 发 现 了 清单 文件 ( MANIFEST.in ) 

e Distutils 成 功 地 解析 了 清单 文件 ， 并 添加 了 我 们 所 需要 的 文件 一 一 coPYING.txt 和 在 
docs/ 目录 下 的 HTML 与 图 像 文件 。 

e 如 果 你 进入 你 的 项 目 目 录 ， 你 会 看 到 Distutils 创建 了 一 个 dist/ 目录 。 你 可 以 分 发 在 
dist/ 目录 中 的 .zip 文件 。 


c:NUsersNpilgrimNchardet» <mark>dir dist«/mark- 
Volume in drive C has no label. 
Volume Serial Number is DED5-B4F8 


Directory of c:NUsersNpilgrimNchardet*dist 

07/30/2009 06:29 PM <DIR> 

07/30/2009 06:29 PM <DIR> ud 

07/30/2009 06:29 PM 206,440 «mark»chardet-1.0.2.zip«/mark» 


1 File(s) 206,440 bytes 
2 Dir(s) 61,424,635,904 bytes free 


€ E AHRR 
在 我 看 来 ， 每 一 个 Python 库 都 应 该 为 Windows 用 户 提供 图 形 安装 程序 。 这 很 容易 做 (即使 
你 并 没有 运行 Windows ) ， 而 且 Windows 用 户 会 对 此 表示 感激 。 


通过 传递 bdist_wininst 命令 到 你 的 Distutils 安装 脚本 ， 它 可 以 为 你 创建 一 个 图 形 化 的 
Windows 安装 程序 。 


c:NUsersNpilgrimNchardet» «mark»2c:Npython31Npython.exe setup.py bdist wininst«/mark» 
running bdist wininst 

running build 

running build py 

creating build 

creating buildMlib 

creating buildMlibNchardet 

copying chardet*Nbig5freq.py -> buildMlibNchardet 

copying chardet*Nbig5prober.py -> buildMlibNchardet 


copying chardetNuniversaldetector.py -» buildMlibNchardet 

copying chardetNutf8prober.py -> buildMlibNchardet 

copying chardetN init .py -> buildMlibNchardet 

installing to build*Mbdist.win32Nwininst 

running install lib 

creating build\bdist .win32 

creating build\bdist .win32\wininst 

creating build\bdist .win32\wininst\PURELIB 

creating build\bdist .win32\wininst\PURELIB\chardet 

copying buildMlibNchardetNbig5freq.py -> build\bdist.win32\wininst\PURELIB\chardet 
copying buildMlibNchardetNbig5prober.py -> build\bdist.win32\wininst\PURELIB\chardet 


copying buildMlibNchardetNuniversaldetector.py -> build\bdist.win32\wininst\PURELIB\chard 
copying buildMlibNchardetNutf8prober.py -> build\bdist.win32\wininst\PURELIB\chardet 
copying build\lib\chardet\ init .py -> build\bdist.win32\wininst\PURELIB\chardet 
running install egg info 

Writing buildNbdist.win32NwininstNPURELIBNchardet-1.0.2-py3.1.egg-info 

creating 'c:NusersNpilgrimNappdataNlocalNtempNtmp2f4h7e.zip' and adding '.' to it 
adding 'PURELIBNchardet-1.0.2-py3.1.egg-info' 

adding 'PURELIBNchardet'big5freq.py' 

adding 'PURELIBNchardet'*big5prober.py' 


adding 'PURELIBNchardetNuniversaldetector.py' 

adding 'PURELIBNchardet'Nutf8prober.py' 

adding 'PURELIBNchardetN init  .py' 

removing 'buildNbdist.win32Nwininst' (and everything under it) 
c:NUsersNpilgrimNchardet» <mark>dir dist«/mark- 
c:NUsersNpilgrimNchardet»dir dist 

Volume in drive C has no label. 

Volume Serial Number is AADE-E29F 


Directory of c:NUsersNpilgrimNchardet'Ndist 


07/30/2009 10:14 PM «DIR»? 
07/30/2009 10:14 PM «DIR»? 


07/30/2009 10:14 PM 371,236 «mark»chardet-1.0.2.win32.exe«c/mark» 
07/30/2009 06:29 PM 206,440 chardet-1.0.2.zip 
2 File(s) 577,676 bytes 


2 Dir(s) 61,424,070,656 bytes free 


| 





为 其 它 操作 系统 编译 安装 包 


Distutils 可 以 帮助 你 为 Linux 用 户 构 建 可 安装 包 。 我 认为 ， 这 可 能 不 值得 你 浪费 时 间 。 如 果 
你 希望 在 Linux 中 分 发 你 的 软件 ， 你 最 好 将 时 间 花 在 与 那些 社区 成 员 进 行 交 流 上 ， 他 们 专门 
为 主流 Linux 发 行 版 打包 软件 。 


例如 ， 我 的 chardet 库 包含 在 Debian GNU/Linux 软件 仓库 中 (因而 也 包含 在 Ubuntu 的 软 
件 仓 库 中 ) 。 我 不 便 做 任何 事情 ， 我 只 在 那里 将 安装 包 展 示 了 一 天 。Debian 社区 拥有 他 们 自 
己 的 关于 打包 Python 库 的 政策 ， 并 且 Debian 的 python-chardet 包 被 设计 为 遵循 这 些 公约 。 
由 于 这 个 包 存 在 在 Debian 的 软件 仓库 中 ， 依 赖 于 Debian 用 户 所 选择 的 管理 自己 计算 机 的 系 
统 设置 ， 他 们 会 收 到 该 包 的 安全 更 新 和 (EX) 新 版 本 。 


Distutils 构 建 的 包 不 具有 Linux 包 所 提供 的 任何 优势 。 你 的 时 间 最 好 花 在 其 他 地 方 。 


将 软件 添加 到 Python 安装 包 列 表 
上 传 软件 到 Python 包 索 引 需 要 三 个 步骤 


1. 注册 你 自己 
2. 注册 你 的 软件 
3， 上 传 你 通过 setup.py sdist 和 setup.py bdist * 创建 的 包 。 


要 注册 自己 ， 访 问 PyPI 用 户 注册 页 面 。 输 入 你 想 要 的 用 户 名 和 密码 ， 提 供 一 个 有 效 的 电子 邮 
件 地 址 ， 然 后 点 击 Register 按钮 。 〈 如 果 你 有 一 个 PGP 或 GPG 密 钥 ， 你 也 可 以 提供 。 如 
果 你 没有 或 者 不 知道 这 是 什么 意思 ， 不 用 担心 。) 检查 你 的 电子 邮件 ， 在 几 分 钟 之 内 ， 你 应 

会 收 到 一 封 来 自 PyPI 的 包含 验证 链接 的 邮件 。 点 击 链接 以 完成 注册 过 程 。 


现在 ， 你 需要 在 PyPI 注 册 你 的 软件 并 上 传 它 。 你 可 以 用 一 步 完成 。 


running register 
We need to know who you are, so please choose either: 
1\. use your existing login, 
2N. register as a new user, 
3N. have the server generate a new password for you (and email it to you), or 
4N. quit 


Password: 

Server response (200): OK 
. output trimmed for brevity ... 
. output trimmed for brevity ... 


Submitting distNchardet-1.0.2.zip to http://pypi.python.org/pypi 
Server response (200): OK 

Submitting distNchardet-1.0.2.win32.exe to http://pypi.python.org/pypi 
Server response (200): OK 

I can store your PyPI login so future submissions will be faster. 

(the login will be stored in c:\home\.pypirc) 


1. 当 你 第 一 次 发 布 你 的 项 目 时 ，Distutils &EHRBS4x (FIDA Pythona R5 rh3ft 4^ HE BS 
URL。 在 这 之 后 ， 它 只 会 用 你 在 setup.py 参数 所 做 的 任何 改变 来 更 新 项 目的 元 数据 。 
之 后 ， 它 构建 一 个 源 代 码 发 布 ( sdist ) 和 一 个 Windows 安装 程序 ( bdist wininst ) 并 把 
他 们 上 传 到 PyPl ( upload )。 

2. 键入 1 EX ENTER 选择 使 用 已 有 的 账户 登录 [use your existing login.] ". 

3. 输入 你 在 PyPI 用 户 注册 页 面 所 选择 的 用 户 名 和 密码 。Distuils 不 会 回 显 你 的 密码 ， 它 甚至 
不 会 在 相应 的 位 置 显 示 星 号 。 只 需 输 入 你 的 密码 ， 然 后 按 mBks 。 

4. Distutils 在 Python 包 索 引 注册 你 的 包 ..…… 

B ...... 构建 源 代 码 分 发 .……. 

6. ...... 构建 Windows 安 装 程序 ..………. 


ro 并 把 它们 上 传 至 Python 包 索 引 。 
8， 如 果 你 想 自 动 完 成 发 布 新 版 本 的 过 程 ， 你 需要 将 你 的 PyPI 赁 据 保 存在 一 个 本 地 文件 中 。 
这 完全 是 不 安全 的 而 且 是 完全 可 选 的 。 


恭喜 人 你， 现在， 在 Python 包 索引 中 有 你 自己 的 页 面 了 |! 地 址 是 
http://pypi.python.org/pypi/ NAME ， 其 中 NAME 是 你 在 setup.py 文件 中 name 参数 所 传 
递 的 字符 串 。 


如 果 你 想 发 布 一 个 新 版 本 ， 只 需 以 新 的 版 本 号 更 新 setup.py 文件 ， 然 后 再 一 次 运行 相同 的 
EEDD: 


c:NUsersNpilgrimNchardet» c:\python31\python.exe setup.py register sdist bdist wininst up 





Python 打包 工具 的 一 些 可 能 的 将 来 


Distutils 并 非 是 一 个 代替 所 有 并 终结 所 有 的 Python 打包 ， 但 在 写本 书 时 (2009 年 8 月 ) ， 它 
是 唯一 可 以 工作 在 Python 3 下 的 打包 框架 。 对 于 Python 2， 还 有 许多 其 他 的 框架 ， 有 的 重 在 
安装 ， 有 的 重 在 测试 ， 还 有 的 重 在 部 署 。 在 未 来 ， 它 们 中 的 一 部 分 或 全 体 都 将 移植 到 Python 
3。 


以 下 框架 重 在 安装 : 


e Setuptools 
e Pip 
e Distribute 


以 下 框架 重 在 测试 和 部 署 : 


e  virtualenv 
e  zc.buildout 
e Paver 
e Fabric 


@  py2exe 


深入 阅读 
关于 Distutils : 


e 通过 Distutils 发 布 Python 模块 

e 核心 发 布 功 能 列 出 了 setup() 加 数 的 所 有 可 能 参数 
e Distutils 食谱 

e PEP370: 每 用 户 site-packages 目录 


Dive Into Python3 


PEP 370 l “environment stew” 


其 它 打包 框架 : 


你 的 位 置 : Home * Dive Into Python 3 » 


Python 打包 生态 系统 
关于 打包 

对 “关于 打包 ”的 几 点 纠 错 
我 为 什么 喜欢 Pip 

Python 打包 : 几 点 看 法 
没有 人 期 望 Python 打包 ! 


难度 等 级 : 44444 


Chapter 16 打包 Python X € 


270 


Chapter A 使 用 2to3 将 代码 移植 到 Python 3 


" Life is pleasant. Death is peaceful. It's the transition that's troublesome. " — Isaac 


Asimov (attributed) 


概述 


几乎 所 有 的 Python 2 程序 都 需要 一 些 修改 才能 正常 地 运行 在 Python 3 的 环境 下 。 为 了 简化 这 个 
转换 过 程 ，Python 3 自 带 了 一 个 叫做 2tos 的 实用 脚本 (Utility Script)， 这 个 脚本 会 将 你 的 
Python 2 程序 源 文件 作为 输入 ， 然 后 自动 将 其 转换 到 Python 3 的 形式 。 案 例 研究 : 

将 chardet 移植 到 Python 3(porting chardet to Python 3) 描 述 了 如 何 运行 这 个 脚本 ， 然 后 展示 
了 一 些 它 不 能 自动 修复 的 情况 。 这 篇 附录 描述 了 它 能 够 自动 修复 的 内 容 。 


print 语句 


在 Python 28, print 是 一 个 语句 。 无 论 你 想 输 出 什么 ， 只 要 将 它们 放 在 print 关键 字 后 边 
就 可 以 。 在 Python 3 里 ， print() 是 一 个 函数 。 就 像 其 他 的 函数 一 样 ， print() 需要 你 将 想 
要 输出 的 东西 作为 参数 传 给 它 。 


Notes Python 2 Python 3 

D print print() 

© print 1 print(1) 

© printed 2 printa 2) 

(a pramnted 927 print(1, 2, end-' ') 

© print &gt;&gt;sys.stderr, 1, 2, 3 print(i1, 2, 3, file-zsys.stderr) 


为 输出 一 个 空白 行 ， 需 要 调用 不 带 参 数 的 print() o 

为 输出 一 个 单独 的 值 ， 需 要 将 这 这 个 值 作 为 print() 的 一 个 参数 就 可 以 了 。 

为 输出 使 用 一 个 空格 分 隔 的 两 个 值 ， 用 两 个 参数 调用 print() 即 可 。 

这 个 例子 有 一 些 技巧 。 在 Python 2 里 ， 如 果 你 使 用 一 个 逗号 (,) 作 为 print 语句 的 结尾 ， 
它 将 会 用 空格 分 隔 输 出 的 结果 ， 然 后 在 输出 一 个 尾随 的 空格 (trailing space)， 而 不 输出 回 
车 (carriage return)。 在 Python 3 里 ， 通 过 把 end=' ' 作为 一 个 关键 字 参 数 传 

给 print() 可 以 实现 同样 的 效果 。 参 数 ena 的 默认 值 为 '\n' ， 所 以 通过 重新 指 

定 end 参数 的 值 ， 可 以 取消 在 末尾 输出 回 车 符 。 

5. 在 Python 2 里 ， 你 可 以 通过 使 用 &gt;&gt;pipe name 语法 ， 把 输出 重 定向 到 一 个 管道 ， 比 
如 sys.stderr 。 在 Python 3 里 ， 你 可 以 通过 将 管道 作为 关键 字 参 数 file 的 值 传递 

给 print() 来 完成 同样 的 功能 。 参数 file 的 默认 值 为 std.stdout ， 所 以 重新 指定 它 的 


OD 


值 将 会 使 printo 输出 到 一 个 另外 一 个 管道 。 


Unicode 字 符 串 


Python 2 有 两 种 字符 串 类 型 : Unicode 字 符 串 和 非 Unicode 字 符 串 。Python 3 只 有 一 种 类 型 : 
Unicode 字 符 串 (Unicode strings)。 


Notes Python 2 Python 3 
D u'PapayaWhip' 'PapayaWhip' 
Qo ur'PapayaWhipNfoo' r'PapayaWwhipNfoo' 


1. Python 2 里 的 Unicode 字 符 串 在 Python 3 里 即 普通 字符 串 ， 因 为 在 Python 3 里 字符 串 总 是 


Unicode 形 式 的 。 
2.，Unicode 原 始 字符 串 (raw string)( 使 用 这 种 字符 串 ，Python 不 会 自动 转 义 反 斜 线 \) 也 被 蔡 
换 为 普通 的 字符 串 ， 因 为 在 Python 3 里 ， 所 有 原始 字符 串 都 是 以 Unicode 编 码 的 。 


FERKA unicode() 


Python 2/8 9j 4 4& FS ER ZUR] ELE 99 2 oh el ANIR : unicode() 把 对 象 转换 成 Unicode 字 
符 串 ， 还 有 str() 把 对 象 转换 为 非 Unicode 字 符 串 。Python 3 只 有 一 种 字符 串 类 型 ，Unicode 
FRSE, A stro 画 数 即 可 完成 所 有 的 功能 。( unicode() ESI fEPython 3 里 不 再 存在 了 。 ) 


Notes Python 2 Python 3 


unicode(anything) str(anything) 


long 长 整 型 


Python 2 有 为 非 浮 点 数 准 各 的 int 和 long 类 型 。 int 类 型 的 最 大 值 不 能 超过 sys.maxint ， 
而 且 这 个 最 大 值 是 平台 相关 的 。 可 以 通过 在 数字 的 末尾 附 上 一 个 L 来 定义 长 整 型 ， 显 然 ， 它 
比 int 类 型 表示 的 数字 范围 更 大 。 在 Python 3 里 ， 只 有 一 种 整数 类 型 int ， 大 多 数 情 况 下 ， 
它 很 像 Python 2 里 的 长 整 型 。 由 于 已 经 不 存在 两 种 类 型 的 整数 ， 所 以 就 没有 必要 使 用 特殊 的 
语法 去 区 别 他 们 。 


进一步 阅读 : PEP 237 : 统一 长 整 型 和 整 型 。 


© 060 0 90 © 
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x = 1000000000000L x = 1000000000000 
x = 0xFFFFFFFFFFFFL x = 0xFFFFFFFFFFFF 
long(x) int(x) 

type(x) is long type(x) is int 
isinstance(x, long) isinstance(x, int) 


1. 在 Python 2 里 的 十 进 制 长 整 型 在 Python 3 里 被 替换 为 十 进 制 的 普通 整数 。 


.在 Python 2 里 的 十 六 进 制 长 整 型 在 Python 3 里 被 替换 为 十 六 进 制 的 普通 整数 。 


在 Python 3 里 ， 由 于 长 整 型 已 经 不 存在 了 ， 自 然 原来 的 long) 画 数 也 没有 了 。 为 了 强制 
转换 一 个 变量 到 整 型 ， 可 以 使 用 into ERA 


. 检查 一 个 变量 是 否 是 整 型 ， 获 得 它 的 数据 类 型 ， 并 与 一 个 int 类 型 (不 是 long ) 的 作 比 


较 。 


. 你 也 可 以 使 用 isinstance() HAGE A TUE ERU ; 再 强调 一 次 ， 使 用 int , I^^ 


是 long , 来 检查 整数 类 型 。 


<> 比较 运算 符 


Python 2 支持 &1t;&gt; 作为 != 的 同义词 。Python 3 只 支持 != ， 不 再 支持 <> 了 。 


外 
Q 


1. 
2. 


字 


Notes Python 2 Python 3 
TX tt if x !2 y: 
I K CANE egt; velt eub z: if x != y != Z: 
简单 地 比较 。 
相对 复杂 的 三 个 值 之 间 的 比较 。 


典 类 方法 has key() 


在 Python 2 里 ， 字 典 对 象 的 has key() 方法 用 来 测试 字典 是 否 包含 特定 的 键 (key)。Python 3 
不 再 支持 这 个 方法 了 。 你 需要 使 用 in 运算 符 。 


Notes Python 2 Python 


D a dictionary.has key('PapayaWhip!') 'PapayaWwhip' in a dict: 
Qo a dictionary.has key(x) or a dictionary.has key(y) x in a dictionary or y 
© a_dictionary.has_key(x or y) (x or y) in a dictiona! 
(a a dictionary.has key(x + y) (X * y) in a dictionarn 
© x + a_dictionary.has_key(y) X * (y in a dictionary: 


1. 最 简单 的 形式 。 

2. 运算 符 or 的 优先 级 高 于 运算 符 in ， 所 以 这 里 不 需要 添加 括号 。 

3， 另 一 方面 ， 出 于 同样 的 原因 一 or 的 优先 级 大 于 in ， 这 里 需要 添加 括号 。( 注 意 : 这 里 
的 代码 与 前 面 那 行 完全 不 同 。Python 会 先 解释 x or y ， 得 到 结果 x (如 果 x 在 布尔 上 下 
文 里 的 值 是 真 ) 或 者 y 。 然 后 Python 检查 这 个 结果 是 不 是 a_dictionary 的 一 个 键 。) 


4. 运算 符 in 的 优先 级 大 于 运算 符 + ， 所 以 代码 里 的 这 种 形式 从 技术 上 说 不 需要 括号 ， 但 
是 2to3 还 是 添加 了 。 
5. 这 种 形式 一 定 需 要 括号 ， 因 为 in 的 优先 级 大 于 + 。 


返回 列表 的 字典 类 方法 


在 Python 2 里 ， 许 多 字典 类 方法 的 返回 值 是 列表 。 其 中 最 常用 方法 的 

有 keys ， items 和 values 。 在 Python 3 里 ， 所 有 以 上 方法 的 返回 值 改 为 动态 视图 (dynamic 
view)。 在 一 些 上 下 文 环 境 里 ， 这 种 改变 并 不 会 产生 影响 。 如 果 这 些 方法 的 返回 值 被 立即 传递 
给 另外 一 个 函数， 并且 那个 函数 会 通 万 整个 序列 ， 那 么 以 上 方法 的 返回 值 是 列表 或 者 视图 并 
会 产生 什么 不 同 。 在 另外 一 些 情况 下 ，Python 3 的 这 些 改变 干系 重大 。 如 果 你 期 待 一 个 能 
被 独立 寻 址 元 素 的 列表 ， 那 么 Python 3 的 这 些 改 变 将 会 使 你 的 代码 卡 住 (choke)， 因 为 视图 
(view) 不 支持 索引 (indexing)。 


Notes Python 2 Python 3 

D a dictionary.keys() list(a dictionary.keys()) 

© a dictionary.items() list(a dictionary.items()) 

3 a dictionary.iterkeys() iter(a dictionary.keys()) 

@ [i for i in a_dictionary.iterkeys()] [i for i in a dictionary.keys()] 
& min(a dictionary.keys()) no change 

1. 使 用 listo) 函数 将 keys) 的 返回 值 转换 为 一 个 静态 列表 ， 出 于 安全 方面 的 考 


量 ， 2to3 可 能 会 报错 。 这 样 的 代码 是 有 效 的 ， 但 是 对 于 使 用 视图 来 说 ， 它 的 效率 低 一 
些 。 你 应 该 检查 转换 后 的 代码 ， 看 看 是 否 一 定 需要 列表 ， 也 许 视图 也 能 完成 同样 的 工 
作 。 

2. 这 是 另外 一 种 视图 (关于 items() 方法 的 ) 到 列表 的 转换 。 2to3 对 values() 方法 返回 值 的 


转换 也 是 一 样 的 。 

3. Python 3 里 不 再 支持 iterkeys() 了 。 如 果 必 要 ， 使 用 itero 将 keyso 的 返回 值 转换 成 
为 一 个 迭代 器 。 

4. 2to3 能 够 识别 出 iterkeys() 方法 在 列表 解析 里 被 使 用 ， 然 后 将 它 转换 为 Python 3 里 
的 keys() 方法 (不 需要 使 用 额外 的 itero 去 包装 其 返回 值 )。 这 样 是 可 行 的 ， 因 为 视图 是 
可 迭代 的 。 

5. 2to3 也 能 识别 出 keys) 方法 的 返回 值 被 立即 传 给 另外 一 个 会 通 历 整个 序列 的 函数 ， 所 
以 也 就 没有 必要 先 把 keys) 的 返回 值 转换 到 一 个 列表 。 相 反 的 ， min() KAAR A SORS 
历 视图 。 这 个 过 程 
对 min(), max() sum(), ， 1list() tuple(), set(), ， sorted() ， any() 和 all() 


同样 有 效 。 


被 重 命 名 或 者 重新 组 织 的 模块 


从 Python 2 到 Python 3， 标 准 库 里 的 一 些 模块 已 经 被 重 命名 了 。 还 有 一 些 相 互 关 联 的 模块 也 被 
组 合 或 者 重新 组 织 ， 以 使 得 这 种 关联 和 更 有 退 辑 性 。 


http 


在 Python 3 里 ， 几 个 相关 的 HTTP 模 块 被 组 合成 一 个 单独 的 包 ， 即 http o 


Notes Python 2 Python 3 

D import httplib import http.client 

D import Cookie import http.cookies 
© import cookielib import http.cookiejar 
à import BaseHTTPServer | import SimpleHTTPServer import http.server 


import CGIHttpServer 


1. http.client 模块 实现 了 一 个 底层 的 库 ， 可 以 用 来 请 求 HTTP 资 源 ， 解 析 HTTP 响 应 。 

2. http.cookies 模块 提供 一 个 蟒 样 的 (Pythonic) 接 口 来 获取 通过 HTTP 头 部 (HTTP 
header)Set-Cookie 发 送 的 cookies 

3. 常用 的 流行 的 浏览 器 会 把 cookies 以 文件 形式 存放 在 磁盘 上 ， http.cookiejar 模块 可 以 操 
作 这 些 文件 。 

4. http.server 模块 实现 了 一 个 基本 的 HTTP 服 务 器 


urllib 


Python 2 有 一 些 用 来 分 析 ， 编 码 和 获取 URL 的 模块 ， 但 是 这 些 模块 就 像 老 鼠 窝 一样 相互 重 
登 。 在 Python 3 里 ， 这 些 模 块 被 重 构 、 组 合成 了 一 个 单独 的 包 ， 即 urllib o 


Notes Python 2 Python 3 


D import urllib import urllib.request, urllib.parse, ur: 

D import urllib2 import urllib.request, urllib.error 

© import urlparse import urllib.parse 

(a import robotparser import urllib.robotparser 

© from urllib import FancyURLopener from urllib.request import FancyURLopenk 
from urllib import urlencode from urllib.parse import urlencode 

© from urllib2 import Request from urllib.request import Request 
from urllib2 import HTTPError from urllib.error import HTTPError 


1， 以 前 ， Python 2 里 的 urllib 模块 有 各 种 各 样 的 函数 ， 包括 用 来 获取 数据 的 urlopen() , 
还 有 用 来 将 URL 分 割 成 其 组 成 部 分 的 splittype() ，  splithost() 和 splituser() PEZ. 
在 新 的 urllib 包 里 ， 这 些 函 数 被 组 织 得 更 有 逮 辑 性 。2to3 将 会 修改 这 些 函 数 的 调用 以 适 
应 新 的 命名 方案 。 

2. 在 Python 3 里 ， 以 前 的 urllib2 模块 被 并 入 了 urllib 包 。 同 时 ， 以 urllib2 里 各 种 你 最 
喜爱 的 东西 将 会 一 个 不 缺 地 出 现在 Python 3 的 urllib 模块 里 ， 比 如 build opener() 方 
Ik, Request 对 象 ， HTTPBasicAuthHandler 和 friends。 

3. Python 3 里 的 urllib.parse 模块 包含 了 原来 Python 2 里 urlparse 模块 所 有 的 解析 函数 。 

4. urllib.robotparse 模块 解析 robots.txt 文件 。 

5， 处 理 HTTP 重 定向 和 其 他 状态 码 的 FancyuRLopener 类 在 Python 3 里 的 urliib.request 模块 
里 依然 有 效 。 urlencode() ERA ES 2e t ES BUT urllib.parse 里 。 

6. Request 对 象 在 urllib.request 里 依然 有 效 ， 但 是 像 HTTPError 这 样 的 常量 已 经 被 转移 
到 了 urllib.error 里 。 


是 否 有 提 到 2to3 也 会 重 写 你 的 函数 调用 ? 比如 ， 如 果 你 的 Python 2 代码 里 导入 
了 urllib 模块 ， 调 用 了 urllib.urlopen() KU HGWdEE,  2tos 会 同时 修改 import 语句 和 
E2803 FH. 


Notes Python 2 


import urllib 


print urllib.urlopen('http://diveintopython3.org/').read() pere Un al 


dbm 


所 有 的 DBM 克 隆 (DBM clone) 现 在 在 单独 的 一 个 包 里 ， 即 dom 。 如 果 你 需要 其 中 某 个 特定 的 
变 体 ， 比 如 GNU DBM， 你 可 以 导入 dom 包 中 合适 的 模块 。 
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import dbm import dbm.ndbm 
import gdbm import dbm.gnu 
import dbhash import dbm.bsd 
import dumbdbm import dbm.dumb 
import anydbm import whichdb import dbm 


xmlrpc 


XML-RPC 是 一 个 通过 HTTP 协 议 执行 远程 RPC 调 用 的 轻重 级 方法 。 一 些 XML-RPC 客 户 端 和 
XML-RPC 服 务 端的 实现 库 现 在 被 组 合 到 了 独立 的 包 ， 即 xmlrpc o 


Notes Python 2 Python 3 
import xmlrpclib import xmlrpc.client 
import DocXMLRPCServer import SimpleXMLRPCServer import xmlrpc.server 


其 他 模块 


Notes Python 2 Python 3 

D [1] import io 

Q [2] import pickle 

© import — builtin . import builtins 

(a import copy reg import copyreg 

© import Queue import queue 

© import SocketServer import socketserver 

D import ConfigParser import configparser 

import repr import reprlib 

(9 import commands import subprocess 
[1]: 

try: 


import cStringIO as StringIO 
except ImportError: 
import StringIO 


[2]: 


try: 


import cPickle as pickle 


except ImportError: 


o NOUN A 


import pickle 


.在 Python 2 里 ， 你 通常 会 这 样 做 ， 首 先 尝试 把 cstringIo 导入 作为 stringro B, An 


果 失 败 了 ， 再 导入 stringI0 o 不 要 在 Python 3 里 这 样 做 ; io 模块 会 帮 你 处 理 好 这 件 事 
情 。 它 会 找 出 可 用 的 最 快 实现 方法 ， 然 后 自动 使 用 它 。 

A 2 里 ， 导 人 最 快 的 pickle 实现 也 是 一 个 与 上 边 相 似 的 能 用 方法 。 在 Python 3 
里 ， pickle 模块 会 自动 为 你 处 理 ， 所 以 不 要 再 这 样 做 。 

builtins 模块 包含 了 在 整个 Python 语言 里 都 会 使 用 的 全 局 画 数 ， 类 和 常量 。 重 新 定 
义 builtins 模块 里 的 某 个 函数 意味 着 在 每 处 都 重 定义 了 这 个 全 局 辑 数 。 这 听 起 来 很 强 
大 ， 但 是 同时 也 是 很 可 怕 的 。 

copyreg 模块 为 用 C 语 言 定义 的 用 户 自 定义 类 型 添加 了 pickle 模块 的 支持 。 

queue 模块 实现 一 个 生产 者 消费 者 队列 (multi-producer multi-consumer queue), 
socketserver 模块 为 实现 各 种 socket server 提 供 了 通用 基础 类 。 

configparser 模块 用 来 解析 INI- style 配 置 文件 。 

reprlib RHEEN T VEM repr() ， 并 添加 了 对 字符 串 表 示 被 截断 前 长 度 的 控 
制 。 

subprocess 模块 允许 你 创建 子 进程 ， 连 接 到 他 们 的 管道 ， 然 后 获取 他 们 的 返回 值 。 


TARHI- A 


包 是 由 一 组 相关 联 的 模块 共同 组 成 的 单个 实体 。 在 Python 2 的 时 候 ， 为 了 实现 同一 个 包 内 模 
块 的 相互 引用 ， 你 会 使 用 import foo 或 者 from foo import Bar o Python 2 解释 器 会 先 在 当前 
目录 里 搜索 foo.py ， Ee iia. sys.path ) 里 搜索 。 在 Python 3 里 这 个 过 程 有 
一 点 不 同 。Python 3 不 会 首先 在 当前 路 径 搜 索 ， 它 会 直接 在 Python 的 搜索 路 径 里 寻找 。 如 果 


你 ? 


想 要 包 里 的 一 个 模块 导入 包 里 的 另外 一 MR. 你 需要 显 式 地 提供 两 个 模块 的 相对 路 径 。 


假设 你 有 如 下 包 ， 多 个 文件 在 同一 个 目录 下 : 


chardet/ 


+ 一 + 一 + 一 + 一 
Y 


. init .py 


--constants.py 
--mbcharsetprober.py 


--universaldetector.py 


现在 假设 universaldetector .py 需要 整个 导入 constants.py ， 另外 还 需要 导 
人 mbcharsetprober.py 的 一 个 类 。 你 会 怎样 做 ? 


Notes Python 2 P 


D import constants from . import constant: 


D from mbcharsetprober import MultiByteCharSetProber from .mbcharsetprober : 


1. 当 你 需要 从 包 的 其 他 地 方 导 人 整个 模块 ， 使 用 新 的 from . import 语法 。 这 里 的 句号 (.) 即 
表示 当前 文件 ( universaldetector.py ) 和 你 想 要 导入 文件 ( constants.py ) 之 间 的 相对 路 
径 。 在 这 个 样 例 中 ， 这 两 个 文件 在 同一 个 目录 里 ， 所 以 使 用 了 单个 句号 。 你 也 可 以 从 父 
目录 ( from .. import anothermodule ) 或 者 子 目 录 里 导 人 。 

2. 为 了 将 一 个 特定 的 类 或 者 函数 从 其 他 模块 里 直接 导入 到 你 的 模块 的 名 字 空 间 里 ， 在 需要 
导入 的 模块 名 前 加 上 相对 路 径 ， 并 且 去 掉 最 后 一 个 斜 线 (slash)。 在 这 个 例子 
中 ， mbcharsetprober.py 5 universaldetector.py 在 同一 个 目 录 里 ， 所 以 相对 路 径 名 就 是 
一 个 句号 。 你 也 可 以 从 父 目 录 (from .. import anothermodule) 或 者 子 目 录 里 导入 。 


迭代 器 方法 next() 


在 Python 2 里 ， 和 迭代 器 有 一 个 next() 方法 ， 用 来 返回 序列 里 的 下 一 项 。 在 Python 3 里 这 同样 
成 立 ， 但 是 现在 有 了 一 个 新 的 全 局 的 函数 next() ， 它 使 用 一 个 迭代 器 作为 参数 。 


Notes Python 2 Python 3 
D anIterator.next() next(anIterator) 
Qo a function that returns an iterator().next() next(a function that returns. 
e [1] [2] 
@ [3] no change 
© [4] [5] 
[1]: 
class A: 
def next(self): 
pass 
[2]: 
class A: 
def _ next (self): 
pass 


[3]: 


class A: 


[4]: 


def next(self, x, y): 
pass 


next = 42 
for an_iterator in a_sequence_of_iterators: 


[5]: 


an iterator.next() 


next - 42 
for an iterator in a sequence of iterators: 


an iterator. next () 


最 简单 的 例子 ， 你 不 再 调用 一 个 迭代 器 的 next() 方法 ， 现 在 你 将 迭代 器 自身 作为 参数 传 
递 给 全 局 加 数 next() o 

假如 你 有 一 个 返回 值 是 迭代 器 的 函数 ， 调 用 这 个 函数 然后 把 结果 作为 参数 传递 

给 next() ERAN, ( 2to3 脚本 足够 智能 以 正确 执行 这 种 转换 。) 

假如 你 想 定义 你 自己 的 类 ， 然 后 把 它 用 作 一 个 迭代 器 ， 在 Python 3 里 ， 你 可 以 通过 定义 
特殊 方法 next () 来 实现 。 

如 果 你 定义 的 类 里 刚好 有 一 个 next() ， 它 使 用 一 个 或 者 多 个 参数 ， 2to3 执行 的 时 候 不 
会 动 它 。 这 个 类 不 能 被 当 作 迭代 器 使 用 ， 因 为 它 的 next() 方法 带 有 参数 。 

这 一 个 有 些 复杂 。 如 果 你 恰好 有 一 个 叫做 next 的 本 地 变量 ， 在 Python 3 里 它 的 优先 级 会 
高 于 全 局 函数 next() 。 在 这 种 情况 下 ， 你 需要 调用 迭代 器 的 特别 方法 net 0 来 获 
取 序 列 里 的 下 一 个 元 素 。( 或 者 ， 你 也 可 以 重 构 代 码 以 使 这 个 本 地 变量 的 名 字 不 
ll next ， 但 是 2to3 不 会 为 你 做 这 件 事 。 ) 


局 函数 filter() 


在 Python 2 里 ， filter() 方法 返回 一 个 列表 ， 这 个 列表 是 通过 一 个 返回 值 为 True 或 
者 False 的 函数 来 检测 序列 里 的 每 一 项 得 到 的 。 在 Python 3 里 ， filter() ÈX KAUA [5] 一 个 迭代 


器 ， 不 再 是 列表 。 
Notes Python 2 Python 3 
D filter(a_function, a_sequence) list(filter(a function, a seq 
Qo list(filter(a function, a sequence)) no change 
© filter(None, a_sequence) [i for i in a_sequence if i] 
(a tone de xmnotabten(Nonezsassequence): no change 
© [i for i in filter(a function, a sequence)] no change 


1. 最 简单 的 情况 下 ， 2to3 会 用 一 个 list) KAROH filter), list) PRA A85 E 
的 参数 然后 返回 一 个 列表 。 

2. 然而 ， 如 果 filter() 调用 已 经 被 list() SE, 2to3 不 会 再 做 义理 ， 因为 这 种 情况 
下 filter() 的 返 区 回 值 是 否 是 一 个 迭代 器 是 无 关 紧要 的 。 

3. 为 了 义理 rilter(None, ...) 这 种 特殊 的 语法 ， 2to3 会 将 这 种 调用 从 语法 上 等 价 地 转换 
为 列表 解析 。 

4. 由 于 for 循环 会 静 历 整个 序列 ， 所 以 没有 必要 再 做 修改 。 

5. 与 上 面相 同 ， 不 需要 做 修改 ， BA RENA 通 历 整个 序列 ， 即 使 filter) 返回 一 个 和 迭 
代 器 ， 它 仍 能 像 以 前 的 filter() 返回 列表 那样 正常 工作 。 


局 函数 map() 


ER filter() 作 的 改变 一 样 ， map() 豆 数 现在 返回 一 个 迭代 器 。( 在 Python 2 里 ， 它 返回 一 个 列 
表 。) 


Notes Python 2 Python 3 

D map(a function, 'PapayaWwhip') list(map(a function, 'PapayaWhip' 
Qo map(None, 'PapayaWhip') list('PapayaWhip!') 

© map(lambda x: x+1, range(42)) [x+1 for x in range(42)] 

(a for i in map(a function, a sequence): no change 

© [i for i in map(a_function, a_sequence)] no change 


1. 类 似 对 filter) 的 处 理 ， 在 最 简单 的 情况 下 ， 2to3 会 用 一 个 iist() KARE 
装 map() 调用 。 
2， 对 于 特殊 的 map(None, ...) 语法 ， 跟 filter(None, ...) 类 似 ， 2to3 会 将 其 转换 成 一 


使 用 list() 的 等 价 调用 
3. WR map() 的 第 一 个 参数 是 一 个 lambda 豆 数 ， 2to3 会 将 其 等 价 地 转换 成 列表 解析 。 


4， 对 于 会 通 历 整个 序列 的 for 循环 ， 不 需要 做 改变 。 
一 次 地 ， 这 里 不 需要 做 修改 ， 因 为 列表 解析 会 逼 历 整个 序列 ， 即 使 map() 的 返回 值 
迭代 器 而 不 是 列表 它 也 能 正常 工作 。 


JKA reduce() 


在 Python 3 里 ， reduce() 豆 数 已 经 被 从 全 局 名 字 空 间 里 移 除 了 ， 它 现在 被 放置 
在 fucntools 模块 里 。 


Notes Python 2 Python 3 


reduce(a, b, c) from functools import reduce  reduce(a, b, c) 


全 局 函数 apply() 


Python 2 有 一 个 叫做 apply() 的 全 局 函数 ， 它 使 用 一 个 函数 f 和 一 个 列表 [a，b，c] 作为 参 
数 ， 返 回 值 是 f(a, b, c) 。 你 也 可 以 通过 直接 调用 这 个 函数 ， 在 列表 前 添加 一 个 星 号 (入 作为 
参数 传递 给 它 来 完成 同样 的 事情 。 在 Python 3H,  apply() 函数 不 再 存在 了 ; 必须 使 用 星 号 
标记 法 。 


Notes Python 2 

D apply(a function, a list of args) a function(' 
Qo apply(a function, a list of args, a dictionary of named args) a function(' 
(©) apply(a function, a list of args + z) a function(' 
(a apply(aModule.a function, a list of args) aModule.a fi 


一 人 


最 简单 的 形式 ， 可 以 通过 在 参数 列表 (就 像 [a, b, c] 一 样 ) 前 添加 一 个 星 号 来 调用 加 数 。 

这 跟 Python 2 里 的 apply() ERE SÁT, 

2. 在 Python 2 里 ， apply() 画 数 实际 上 可 以 带 3 个 参数 : 一 个 函数 ， 一 个 参数 列表 ， 一 个 字 
典 命名 参数 (dictionary of named arguments)。 在 Python 3 里 ， 你 可 以 通过 在 参数 列表 前 
添加 一 个 星 号 ( * )， 在 字典 命名 参数 前 添加 两 个 星 号 ( ** ) 来 达到 同样 的 效果 。 

3. 运算 符 + 在 这 里 用 作 连 接 列表 的 功能 ， 它 的 优先 级 高 于 运算 符 * ， 所 以 没有 必要 
在 a list of args + z 周围 添加 额外 的 括号 。 

4. 2to3 脚本 足够 智能 来 转换 复杂 的 apply() 调用 ， 包 括 调用 导入 模块 里 的 函数 。 


全 局 函数 intern() 


在 Python 2 里 ， 你 可 以 用 intern) 范 数 作用 在 一 个 字符 串 上 来 限定 (intern) 它 以 达到 性 能 优 
化 。 在 Python 3 里 ， intern() 函数 被 转移 到 sys 模块 里 了 。 


Notes Python 2 Python 3 


intern(aString) sSys.intern(aString) 


exec 语句 


就 像 print 语句 在 Python 3 里 变 成 了 一 个 函数 一 样 ， exec 语句 也 是 这 样 的 。 exec() MAU 
用 一 个 包含 任意 Python 代码 的 字符 串 作 为 参数 ， 然 后 就 像 执 行 语 名 或 者 表达 式 一 样 执行 

它 。 exec() 跟 eval() 是 相似 的 ， 但 是 exec() 更 加 强大 并 更 具有 技巧 性 。 eval() ER 2 EA BE 
执行 单独 一 条 表达 式 ， 但 是 exec ()BE4 ATTI o R18 8), Se A (import), KHAAA 一 实际 上 
整个 Python 程序 的 字符 串 表 示 也 可 以 。 


Notes Python 2 


exec(codeString) 


D exec codeString 
Qo exec codeString in a global namespace exec(codeString, 
© exec codeString in a_global_namespace, a_local_namespace exec(codeString, 


1. 在 最 简单 的 形式 下 ， 因 为 exec() NEE- T ENAAG MTE, 2to3 会 把 这 个 字符 串 
形式 的 代码 用 括号 围 起 来 。 

2. Python 2 里 的 exec 语句 可 以 指定 名 字 空 间 ， 代 码 将 在 这 个 由 全 局 对 象 组 成 的 私有 空间 里 
执行 。Python 3 也 有 这 样 的 功能 ; 你 只 需要 把 这 个 名 字 空 间作 为 第 二 个 参数 传递 
给 exec() KRIŽ 

3. 更 加 神奇 的 是 ，Python 2 里 的 exec 语句 还 可 以 指定 一 个 本 地 名 字 空 间 (比如 一 个 函数 里 
声明 的 变量 )。 在 Python 3 里 ， exec() 函数 也 有 这 样 的 功能 。 


execfile 语句 


就 像 以 前 的 exec i$ 5], Python 2 里 的 execfile 语句 也 可 以 像 执 行 Python 代码 那样 使 用 字符 
串 。 不 同 的 是 exec 使 用 字符 串 ， 而 execfile 则 使 用 文件 。 在 Python 3 里 ， execfile 语句 已 
经 被 去 掉 了 。 如 果 你 真 的 想 要 执行 一 个 文件 里 的 Python 代码 (但 是 你 不 想 导 入 它 )， 你 可 以 通过 
打开 这 个 文件 ， 读 取 它 的 内 容 ， 然 后 调用 compile() 全 局 函数 强制 Python 解 释 器 编译 代码 ， 
然后 调用 新 的 exec() HL 


Notes Python 2 Python 3 


execfile('a filename!) exec(compile(open('a filename').read(), 'a filename 


repr (/«5l5) 


在 Python 2 里 ， 为 了 得 到 一 个 任意 对 象 的 字符 串 表 示 ， 有 一 种 把 对 象 包装 在 反 引 号 里 ( 比 
如 x ) 的 特殊 语法 。 在 Python 3 里 ， 这 种 能 力 仍然 存在 ， 但 是 你 不 能 再 使 用 反 引 号 获得 这 种 字 
符 串 表示 了 。 你 需要 使 用 全 局 函数 repr() o 


Notes Python 2 Python 3 
D D repr(x) 
Qo "'Papayawhip' + 2^ repr('PapayaWwhip' + repr(2)) 
1. ift, X 可 以 是 任何 东西 一 一 | X, ERR, 模块 ， 基本 数据 类 型 ， 等 等 。 repr() ES ZA 


可 以 使 用 任何 类 型 的 参数 。 
2. 在 Python 2 里 ， 反 引号 可 以 找 套 ， 导 致 了 这 种 伟人 费解 的 (但 是 有 效 的 ) 表 达 式 。 2to3 Œ 


够 智能 以 将 这 种 散 套 调用 转换 到 repro ERI, 


try...except 语句 


从 Python 2 到 Python 3， 捕 获 异常 的 语法 有 些许 变化 。 


Notes Python 2 Python 3 
D [1] [2] 
© [3] [4] 
© [5] no change 
& [6] no change 
[1]: 
try: 


import mymodule 
except ImportError, e 
pass 


[2]: 


try: 
import mymodule 
except ImportError as e: 
pass 


[3]: 


try: 
import mymodule 

except (RuntimeError, ImportError), e 
pass 


[4]: 


try: 
import mymodule 

except (RuntimeError, ImportError) as e: 
pass 


[5]: 


try: 
import mymodule 
except ImportError: 
pass 


[6]: 


try: 


import mymodule 


except: 


pass 


相对 于 Python 2 里 在 异常 类 型 后 添加 逗号 ，Python 3 使 用 了 一 个 新 的 关键 字 ， aso 
关键 字 as 也 可 以 用 在 一 次 捕获 多 种 类 型 异常 的 情况 下 。 


3， 如 果 你 捕获 到 一 个 异常 ， 但 是 并 不 在 意 访 问 异 常 对 象 本 身 ，Python 2 和 Python 3 的 语法 是 


一 样 的 。 


.类 似 地 ， 如 果 你 使 用 一 个 保险 方法 (fallback) 来 捕获 所 有 异常 ，Python 2 和 Python 3 的 语 


法 是 一 样 的 。 
在 导入 模块 (或 者 其 他 大 多 数 情况 ) 的 时 候 ， 你 绝对 不 应 该 使 用 这 种 方法 ( 指 以 上 的 





fallback)。 不 然 的 话 ， 程 序 可 能 会 捕获 到 像 Keyboardinterrupt (如 果 用 户 按 ctri-c 来 中 
断 程 序 ) 这 样 的 异常 ， 从 而 使 调试 变 得 更 加 困难 。 





raise 语句 


Python 3 里 ， 抛 出 自 定 义 异 常 的 语法 有 细微 的 变化 。 


Notes Python 2 

e raise MyException unchanged 

Qo raise MyException, 'error message' raise MyException('error r 
© raise MyException, 'error message', a_traceback raise MyException('error r 
(a) raise 'error message' unsupported 

1， 抛 出 不 带 用 户 自 定义 错误 信息 的 异常 ， 这 种 最 简单 的 形式 下 ， 语 法 没有 改变 。 

2.， 当 你 想 要 抛 出 一 个 带 用 户 自 定义 错误 信息 的 异常 时 ， 改 变 就 显而易见 了 。Python 2 用 一 


生 


个 至 号 来 分 隔 异 常 类 和 错误 信息 ; Python 3 把 错误 信息 作为 参数 传递 给 异常 类 。 


. Python 2 支持 一 种 更 加 复杂 的 语法 来 抛 出 一 个 带 用 户 自 定义 回溯 (stack trace, HEER) 


的 异常 。 在 Python 3 里 你 也 可 以 这 样 做 ， 但 是 语法 完全 不 同 。 


.在 Python 2 里 ， 你 可 以 抛 出 一 个 不 带 异 常 类 的 异常 ， 仅 仅 只 有 一 个 异常 信息 。 在 Python 3 


里 ， 这 种 形式 不 再 被 支持 。 2tos 将 会 警告 你 它 不 能 自动 修复 这 种 语法 。 


成 器 的 throw 方法 


在 Python 2 里 ， 生 成 器 有 一 个 throw() 方法 。 调 用 a generator.throw() 会 在 生成 器 被 暂停 的 
时 候 抛 出 一 个 异常 ， 然 后 返回 由 生成 器 本 数 获取 的 下 一 个 值 。 在 Python 3 里 ， 这 种 功能 仍然 
可 用 ， 但 是 语法 上 有 一 点 不 同 。 


Notes Python 2 Pythol 


D a_generator .throw(MyException) no change 
D a_generator .throw(MyException, 'error message') a generator.throw(MyExcep! 
(©) a generator.throw('error message’) unsupported 


1. 最 简单 的 形式 下 ， 生 成 器 抛 出 不 带 用 户 自 定义 错误 信息 的 异常 。 这 种 情况 下 ， 从 Python 
2 到 Python Mise ZAZIE. 
2， 如 果 生 成 器 抛 出 一 个 带 用 户 自 定义 错误 信息 的 异常 ， 你 需要 将 这 个 错误 信息 字符 串 (error 
a an RD AL 
3. Python 2it Sz HABER FUB se EaR. Python 3 不 支持 这 种 语法 ， 并 且 2to3 会 显示 
一 个 警告 信息 ， 告 诉 你 需要 手动 地 来 修复 这 处 代码 。 


局 酌 数 xrange() 


在 Python 2 里 ， 有 两 种 方法 来 获得 一 定 范围 内 的 数字 : range() ， 它 返回 一 个 列表 ， 还 
有 range() ， 它 返回 一 个 迭代 器 。 在 Python 3 里 ， range() 返回 迭代 器 ， xrange() 不 再 存在 


了 。 


Notes Python 2 Python 3 
© xrange(10) range(10) 
© a_list = range(10) a_list = list(range(10)) 
© [i for i in xrange(10)] [i for i in range(10)] 
@ for i in range(10): no change 
© sum(range(10)) no change 


1. 在 最 简单 的 情况 下 ， 2to3 会 简单 地 把 xrange() 转换 为 range() o 

2， 如 果 你 的 Python 2 代码 使 用 range() ， 2to3 不 知道 你 是 否 需要 一 个 列表 ， 或 者 是 否 一 个 
迭代 器 也 行 。 出 于 着 愤 ， 2to3 可 能 会 报错 ， 然后 使 用 list() 把 range() 的 返 芭 回 值 强制 
转换 为 列表 类 型 

3， 如 果 在 列表 解析 里 有 xrange() 本 数 ， 就 没有 必要 将 其 返回 值 转 换 为 一 个 列表 ， 因 为 列表 
BEAT LR as eL HE AC, 

4， 类 似 的 ， for 循环 也 能 作用 于 迭代 器 ， 所 以 这 里 也 没有 改变 任何 东西 。 

5. KŻ sun) 能 作用 于 迭代 器 ， 所 以 2tos 也 没有 在 这 里 做 出 修改 。 就 像 返回 值 为 视图 
(view) 而 不 再 是 列表 的 字典 类 法 二 样 ， 这 同样 适用 于 min(), max()  sum(), 
list), tuple() , set(), sorted(), any(), all() 。 


FuES2X raw input() 和 input() 


Python 2 有 两 个 全 局 函数 ， 用 来 在 命令 行 请 求 用户 输 入 。 第 一 个 叫做 input() ， 它 等 待 用 户 
偷 人 一 个 Python 表达 式 ( 然 后 返回 结果 )。 Bud raw input() ， 用 户 输入 什么 它 就 返回 什 
么 。 这 让 初学 者 非常 困惑 ， 并 且 这 被 广泛 地 看 作 是 Python 语言 的 一 个 “ 肉 商 "(wart)。Python 3 

通过 重 命名 raw _input() 为 input() ， 从 而 切 掉 了 这 个 Až, MAREK input() 就 像 每 个 人 
最 初期 待 的 那样 工作 。 


Notes Python 2 Python 3 
D raw input() input() 
© raw input('prompt') input('prompt') 
© input() eval(input()) 


1. 最 简单 的 形式 ， raw_input() 被 替换 成 input() o 

2. 在 Python 28, raw input() 图 数 可 以 指定 一 个 提示 符 作为 参数 。Python 3 里 保留 了 这 个 
功能 。 

3， 如 果 你 真 的 想 要 请 n 个 Python 表达 式 ， 计 算 结 果 ， 可 以 通过 调用 inuto K 
数 然后 把 返 区 回 值 传递 合 eval() 。 


函数 属性 func * 


和 让， 函数 的 里 的 代码 可 以 访问 到 函数 本 身 的 特殊 属性 。 在 Python 3 里 ， 为 了 一 致 
性 ， 这 些 特殊 属性 被 重新 命名 了 。 


Notes Python 2 Python 3 
D a_function.func_name a function. name . 
Qo a function.func doc a function. doc . 
© a_function.func_defaults a function. defaults . 
(a a function.func dict QUID CC ta 
© a function.func closure aXRunctazon:essc:losuneue 
© a_function.func_globals a function. globals . 
D a function.func code a function. code . 
1. name _ 属性 ( 原 func name B£ T PRZAB A Se, 
2. _ 属性 ( 原 funcdoc ) 包 含 了 你 在 函数 源 代 码 里 定义 的 文档 字符 串 (aocstnng) 
3. | defaults ”属性 ( 原 func defaults ) 是 一 个 保存 参数 默认 值 的 元 组 。 
4. . dict _ 属性 ( 原 func dict ) 是 一 个 支持 任意 琅 数 属性 的 名 字 空 间 。 
5. _closure _ 属性 ( 原 func closure ) 是 一 个 由 cell 对 象 组 成 的 元 组 ， 它 包含 了 画 数 对 自由 
变量 (free variable) 的 绑 定 。 
6.  globals _ 属性 ( 原 func_globals ) 是 一 个 对 模块 全 局 名 字 空 间 的 引用 ， 画 数 本 身 在 这 个 


名 字 空 间 里 被 定义 。 
7T. . code _ 属性 ( 原 func code ) 是 一 个 代码 对 象 ， 表 示 编 译 后 的 函数 体 。 


IO 方法 xreadlines() 


在 Python 2 里 ， 文 件 对 象 有 一 个 xreadlines() 方法 ， 它 返回 一 个 迭代 器 ， 一 次 读 取 文件 的 一 
行 。 这 在 for 循环 中 尤其 有 用 。 事 实 上 ， 后 来 的 Python 2 版 本 给 文件 对 象 本 身 添加 了 这 样 的 


功能 。 
在 Python 3 里 ， xreadlines() 方法 不 再 可 用 了 。 2to3 可 以 解决 简单 的 情况 ， 但 是 一 些 边 缘 案 
例 则 需要 人 工 介入 


Notes Python 2 Python 3 
D for line in a_file.xreadlines(): for line in a file: 
Qo for line in a file.xreadlines(5): no change (broken) 


1. 如 果 你 以 前 调用 没有 参数 的 xreadlines() , 2to3 会 把 它 转换 成 文件 对 象 本 身 。 在 
Python 3 里 ， 这 种 转换 后 的 代码 可 以 完成 前 同样 的 工作 : 一 次 读 取 文件 的 一 行 ， 然 后 执 
行 for 循环 的 循环 体 。 

2. 如 果 你 以 前 使 用 一 个 参数 (每 次 读 取 的 行 数 ) 调 用 xreadlines() ， 2to3 不 能 为 你 完成 从 
Python 2 到 Python 3 的 转换 ， 你 的 代码 会 以 这 样 的 方式 失 
败 : AttributeError: ' io.TextIOWrapper' object has no attribute 'xreadlines' o 你 可 


以 手工 的 把 xreadlines() 改 成 readlines() 以 使 代码 能 在 Python 3 下 工作 。(readline() 方 
法 在 Python 3 里 返回 迭代 器 ， 所 以 它 跟 Python 2 里 的 xreadlines() 效率 是 不 相 上 下 的 。 ) 


使 用 元 组 而 非 多 个 参数 的 lambda 函数 


在 Python 2 里 ， 你 可 以 定义 匿名 lambda EX Z(anonymous lambda function)， 通 过 指定 作为 
参数 的 元 组 的 元 素 个 数 ， 使 这 个 函数 实际 上 能 够 接收 多 个 参数 。 事 实 上 ，Python 2 的 解释 器 
De ame arguments)， 然 后 你 可 以 在 lambda 函数 里 引用 
它们 (通过 名 字 )。 在 Python 3 里 ， 你 仍然 可 以 传递 一 个 元 组 作为 lambda APSZ, (Bie 
Python 解释 器 不 会 把 它 解 析 成 命名 参数 。 你 需要 通过 位 置 素 引 (positional index) 来 引用 每 个 参 


数 。 


Notes Python 2 Python 3 


D :ambolam (Dea) >t f(x) lambda x1: x1[0] + f(x1[0]) 

D lambda (x, y): x * f(y) lambda x y: x y[0] * f(x y[1]) 

© :ambolam (cm 5/73) hy tz am aE Zz exay SAO; 
@ lambda x, y, z: x *y *z unchanged 


如 果 你 已 经 定义 了 一 个 lambda KA, "E fBFHOIE—T URBIUM F2 SX, Python 3 

里 ， 它 会 被 转换 成 一 个 包含 到 x1[0] 的 引用 的 lambda [SES x1 是 2to3 脚本 基于 原来 

元 组 里 的 命名 参数 自动 生成 的 。 

2. 使 用 含有 两 个 元 素 的 元 组 (x, y) 作为 参数 的 lambda 函数 被 转换 为 x y ， 它 有 两 个 位 置 
参数 ， 即 xylo] 和 xy[1] o 

3. 2to3 脚本 甚至 可 以 处 理 使 用 谍 套 命名 参数 的 元 组 作为 参数 的 lamda 画 数 。 产 生 的 结果 
代码 有 点 难以 阅读 ， 但 是 它 在 Python 3 下 跟 原 来 的 代码 在 Python 2 下 的 效果 是 一 样 的 。 

4. 你 可 以 定义 使 用 多 个 参数 的 lambda 画 数 。 如 果 没 有 括号 包围 在 参数 周围 ，Python 2 会 把 

它 当 作 一 个 包含 多 个 参数 的 lambda IŽ ; 在 这 个 lambda 画 数 体 里 ， 你 通过 名 字 引 用 这 

些 参 数 ， 就 像 在 其 他 类 型 的 函数 里 所 做 的 一 样 。 这 种 语法 在 Python 3 里 仍然 有 效 。 


~ 


特殊 的 方法 属性 


在 Python 2 里 ， 类 方法 可 以 访问 到 定义 他 们 的 类 对 象 (class object)， 也 能 访问 方法 对 象 
(method object) 本 身 。 im self 是 类 的 实例 对 象 ; im func 是 函数 对 象 ， im class 是 类 本 
身 。 在 Python 3 里 ， 这 些 属性 被 重新 命名 ， 以 遵循 其 他 属性 的 命名 约定 。 


Notes Python 2 Python 3 
aClassInstance.aClassMethod.im func aClassInstance.aClassMethod. func . 
aCclassInstance.aClassMethod.im self aClassInstance.aClassMethod. self . 
aClassInstance.aClassMethod.im class aClassInstance.aClassMethod. self . 


. nonzero — 特殊 方法 


在 Python 2 里 ， 你 可 以 创建 自己 的 类 ， 并 使 他 们 能 够 在 布尔 上 下 文 (boolean context) 中 使 用 。 
举例 来 说 ， 你 可 以 实例 化 这 个 类 ， 并 把 这 个 实例 对 象 用 在 一 个 if 语句 中 。 为 了 实现 这 个 目 
的 ， 你 定义 一 个 特别 的 _nonzero_() 方法 ， 它 的 返回 值 为 True EX False ， 当 实例 对 象 处 
在 布尔 上 下 文中 的 时 候 这 个 方法 就 会 被 调用 。 在 Python 3 里 ， 你 仍然 可 以 完成 同样 的 功能 ， 
但 是 这 个 特殊 方法 的 名 字 变 成 了 . bool ()。 


Notes Python 2 Python 3 


中 [1] [2] 
o [3] no change 
[1]: 
class A: 
def _ nonzero (self): 
pass 
[2]: 
class A: 
def — bool (self): 
pass 
[3]: 
class A: 
def _ nonzero (self, x, y): 
pass 


1. 当 在 布尔 上 下 文 使 用 一 个 类 对 象 时 ，Python 3 会 调用 _bool (0, m 


非 _nonzero_ () o 


2 然而， 如 果 你 有 定义 了 一 个 使 用 两 个 参数 的 “nonzero_() 方法 ， 2to3 脚本 会 假设 你 定 
义 的 这 个 方法 有 其 他 用 处 ， 因 此 不 会 对 代码 做 修改 。 
八进制 类 型 
在 Python 2 和 Python 3 之 间 ， 定 义 八 进 制 (octal) 数 的 语法 有 轻微 的 改变 。 
Notes Python 2 Python 3 
x = 0755 X = 00755 
sys.maxint 


由 于 长 整 型 和 整 型 被 整合 在 一 起 了 ， sys.maxint 常量 不 再 精确 。 但 是 因为 这 个 值 对 于 检测 特 
定 平台 的 能 力 还 是 有 用 处 的 ， 所 以 它 被 Python 3 保留 ， 并 且 重 命名 为 sys.maxsize o 





Notes Python 2 Python 3 
D from sys import maxint from sys import maxsize 


Qo a function(sys.maxint) a function(sys.maxsize) 


1. maxint Xi FX Į maxsize o 
2. 所 有 的 sys.maxint 都 变 成 了 sys.maxsize o 


CTARA callable() 


在 Python 2 里 ， 你 可 以 使 用 全 局 函数 callable() 来 检查 一 个 对 象 是 否 可 调用 (callable， 比 如 
ERE), f£Python 3 里 ， 这 个 全 局 函数 被 取消 了 。 为 了 检查 一 个 对 象 是 否 可 调用 ， 可 以 检查 特 
殊 方法 _call () 的 存在 性 。 


Notes Python 2 Python 3 


callable(anything) hasattr(anything, ' call ') 


局 函数 zip() 


在 Python 28, ZAKA zip() 可 以 使 用 任意 多 个 序列 作为 参数 ， 它 返回 一 个 由 元 组 构成 的 
列表 。 第 一 个 元 组 包含 了 每 个 序列 的 第 一 Eu e PORTER 


素 ; 依次 递 推 下 去 。 在 Python 3 里 ， zipo 返回 一 个 迭代 器 ， 而 非 列 表 。 
Notes Python 2 Python 3 
e» zapar DITC) 村 
© d.join(zip(a, b, c)) no change 


最 简单 的 形式 ， 你 可 以 通过 调用 list() KAER zip() 的 返回 值 来 恢复 zip() 函数 以 前 

的 功能 ， 1list() KARMAR zipo 函数 返回 的 迭代 器 ， 然 后 返回 结果 的 列表 表示 。 
2. 在 已 经 会 通 历 序列 所 有 元 素 的 上 下 文 环境 里 (比如 这 里 对 join() 方法 的 调用 )， zipo 返 

回 的 迭代 器 能 够 正常 工作 。 2to3 脚本 会 检测 到 这 些 情况 ， 不 会 对 你 的 代码 作出 改变 。 


StandardError 异常 


在 Python 28,  standardError 是 除 
了 StopIteration ,  GeneratorExit , KeyboardInterrupt ，  SystemExit 之 外 所 有 其 他 内 置 异 


常 的 基 类 。 在 Python 3 里 ， standardError CZ 经 被 取消 了 ; 使 用 Exception 替代 。 


Notes Python 2 Python 3 
x = StandardError() X = Exception() 
x - StandardError(a, b, c) X - Exception(a, b, c) 


types 模块 中 的 前 量 


types 模块 里 各 种 各 样 的 常量 能 帮助 你 决定 一 个 对 象 的 类 型 。 在 Python 2 里 ， 它 包含 了 代表 
所 有 基本 数据 类 型 的 常量 ， 如 dict 和 int 。 在 Python 3 里 ， 这 些 常量 被 已 经 取消 了 。 只 需要 
使 用 基础 类 型 的 名 字 来 替代 。 


Notes 


types. 
types. 
types. 
types. 
types. 
types. 
types. 
types. 
types. 
types. 
types. 
types. 
types. 
types. 
types. 
types. 
types. 
types. 


types. 


Python 2 
UnicodeType 
StringType 
DictType 
IntType 
LongType 
ListType 
NoneType 
BooleanType 
BufferType 
ClassType 
ComplexType 
EllipsisType 
FloatType 
ObjectType 
NotImplementedType 
SliceType 
TupleType 
TypeType 


XRangeType 


Python 3 
str 
bytes 
dict 
int 
int 
dst 
type(None) 
bool 
memoryview 
type 
complex 
type(Ellipsis) 
float 
object 
type(NotImplemented) 
slice 
tuple 
type 


range 


types.Stringrype 被 映射 为 bytes ， 而 非 str ， 因 为 Python 2 里 的 “string”( 非 Unicode 
编码 的 字符 串 ， 即 普通 字符 串 ) 事 实 上 只 是 一 些 使 用 某 种 字符 编码 的 字 节 序列 (a 
sequence of bytes), 


全 局 因数 isinstance() 


isinstance() 图 数 检 查 一 个 对 象 是 否 是 一 个 特定 类 (class) 或 者 类 型 (type) 的 实例 。 在 Python 2 
里 ， 你 可 以 传递 一 个 由 类 型 (types) 构 成 的 元 组 给 isinstance() ， 如 果 该 对 象 是 元 组 里 的 任意 
一 种 类 型 ， 函 数 返 回 True 。 在 Python 3 里 ， 你 依然 可 以 这 桩 做 ， 但 是 不 推荐 使 用 把 一 种 类 型 


作为 参数 传递 两 次 。 
Notes 


Python 2 


isinstance(x, (int, float, int)) 


Python 3 


isinstance(x, (int, float)) 


basestring 数据 类 型 


Python 2 有 两 种 字符 串 类 型 : Unicode 编 码 的 字符 串 和 非 Unicode 编 码 的 字符 串 。 但 是 其 实 还 
有 另外 一 种 类 型 ， 即 basestring 。 它 是 一 个 抽象 数据 类 型 ， 是 str 和 unicode 类 型 的 超 类 
(superclass)。 它 不 能 被 直接 调用 或 者 实例 化 ， 但 是 你 可 以 把 它 作 为 isinstance() 的 参数 来 检 
测 一 个 对 象 是 否 是 一 个 Unicode 字 符 串 或 者 非 Unicode 字 符 串 。 在 Python 3 里 ， 只 有 一 种 字符 
串 类 型 ， 所 以 basestring 就 没有 必要 再 存在 了 。 


Notes Python 2 Python 3 


isinstance(x, basestring) isinstance(x, str) 


itertools 模块 


Python 2.38| A f itertools Rik, BELT ESK zip() , map() ， filter() 的 变 体 
(variant)， 这 些 变 体 的 返回 类 型 为 迭代 器 ， 而 非 列 表 。 在 Python 3 里 ， 由 于 这 些 全 局 函数 的 返 
回 类 型 本 来 就 是 迭代 器 ， 所 以 这 些 itertools 里 的 这 些 变 体 函 数 就 被 取消 了 。 

(在 itertools 模块 里 仍然 还 有 许多 其 他 的 有 用 的 函数 ， 而 不 仅仅 是 以 上 列 出 的 这 些 。) 


Notes Python 2 Python 3 

D itertools.izip(a, b) zapian b) 

D itertools.imap(a, b) map(a, b) 

© itentools ifilter(a, b) fd lter(a, b) 

(a from itertools import imap, izip, foo from itertools import foo 


1. 使 用 全 局 的 zip() KŻ, 而 非 itertools.izip() o 

2. 使 用 map( ) 而 非 itertools.imap() o 

3. itertools.ifilter() 变 成 了 filter() o 

4. itertools 模块 在 Python 3 里 仍然 存在 ， 它 只 是 不 再 包含 那些 已 经 转移 到 全 局 名 字 空 间 的 
B 2to3 脚本 能 够 足够 智能 地 去 移 除 那些 不 再 有 用 的 导入 语句 ， 同 时 保持 其 他 的 导入 


语句 的 完整 性 。 


Sys.exc type , sys.exc value , 
sys.exc traceback 


处 理 异常 的 时 候 ， 在 sys 模块 里 有 三 个 你 可 以 访问 的 变 

量 : sys.exc type, Sys.exc value, sys.exc_traceback 。( 实 际 上 这 些 在 Python 1 的 时 代 就 
有 。) 从 Python 1.5 开 始 ， 由 于 新 出 的 sys.exc info ， 不 再 推荐 使 用 这 三 个 变量 了 ， 这 是 一 个 
包含 所 有 以 上 三 个 元 素 的 元 组 。 在 Python 3 里 ， 这 三 个 变量 终于 不 再 存在 了 ; 这 意味 着 ， 你 


必须 使 用 sys.exc info o ` 


Notes Python 2 Python 3 


Sys.exc type Sys.exc info()[0] 
Sys.exc value sys.exc info()[1] 
Sys.exc traceback sys.exc info()[2] 


对 元 组 的 列表 解析 


在 Python 2 里 ， 如 果 你 需要 编写 一 个 通 历 元 组 的 列表 解析 ， 你 不 需要 在 元 组 值 的 周围 加 上 括 
号 。 在 Python 3 里 ， 这 些 括号 是 必需 的 。 


Notes Python 2 Python 3 


[Eo eI E21] [Ero roe i a e 


os.getcwdu() DX2X 


Python 2 有 一 个 叫做 os.getcwd() 的 函数 ， 它 将 当前 的 工作 目录 作为 一 个 ( 非 Unicode 编 码 的 ) 
字符 串 返 回 。 由 于 现代 的 文件 系统 能 够 处 理 能 何 字符 编码 的 目录 名 ，Python 2.3 引 入 

了 os.getcwdu( ) Eq, os.getcwdu( ) 函数 把 当前 工作 目 录用 Unicode 编 码 的 字符 串 返 回 。 在 
Python 3 里 ， 由 于 只 有 一 种 字符 串 类 型 (Unicode 类 型 的 )， 所 以 你 只 需要 os.getcwd() 就 可 以 
了 。 


Notes Python 2 Python 3 
os.getcwdu() os.getcwd() 
7v X (metaclass) 


在 Python 2 里 ， 你 可 以 通过 在 类 的 声明 中 定义 metaclass 参数 ， 或 者 定义 一 个 特殊 的 类 级 别 的 
(class-level) _metaclass 属性， 来 创建 元 类 。 在 Python 3 里 ， metaclass ”属性 已 经 被 取 
消 了 。 


Notes Python 2 Python 3 
外 [1] unchanged 
o [2] [3] 
3 [4] [5] 


[1]: 


class C(metaclass-PapayaMeta): 
pass 


[2]: 


class Whip: 
. metaclass _ = PapayaMeta 


[3]: 


class Whip(metaclass-PapayaMeta): 
pass 


[4]: 


class C(Whipper, Beater): 
. metaclass _ = PapayaMeta 


[5]: 


class C(Whipper, Beater, metaclass-PapayaMeta): 
pass 


1. 在 声明 类 的 时 候 声 明 metaclass 参数 ， 这 在 Python 2 和 Python 3 里 都 有 效 ， 它 们 是 一 样 
的 。 

2. 在 类 的 定义 里 声明 _metaclass。 属性 在 Python 2 里 有 效 ， 但 是 在 Python 3 里 不 再 有 效 。 

3. 2tos 能 够 构建 一 个 有 效 的 类 声明 ， 即 使 这 个 类 继承 自 多 个 父 类 。 


天 于 代码 风格 


以 下 所 列 的 “修补 "(fixes) 实 质 上 并 不 算 真 正 的 修补 。 意 思 就 是 ， 他 们 只 是 代码 的 风格 上 的 事 

情 ， 而 不 涉及 到 代码 的 本 质 。 但 是 Python 的 开发 者 们 在 使 得 代码 风格 尽 可 能 一 致 方面 非常 有 
兴趣 (have a vested interest)。 为 此 ， 有 一 个 专门 0 描述 Python 代 码 风格 的 官方 指导 手册 一 细 
致 到 能 使 人 痛苦 一 都 是 一 些 你 不 太 可 能 关心 的 在 各 种 各 样 的 细节 上 的 挑剔 。 鉴 于 2to3 为 转 
换代 码 提供 了 一 个 这 么 好 的 条 件 ， 肢 本 的 作者 们 添加 了 一 些 可 选 的 特性 以 使 你 的 代码 更 具 可 


set() 字面 值 (literal)( 显 式 的 ) 


在 Python 2 城 ， 定 义 一 个 字面 值 集合 (literal set) 的 唯一 方法 就 是 调用 set(a sequence) 。 在 
Python 3 里 这 仍然 有 效 ， 但 是 使 用 新 的 标注 记号 (literal notation) : 大 括号 ( 们 ) 是 一 种 更 清晰 的 
方法 。 这 种 方法 除了 空 集 以 外 都 有 效 ， 因 为 字典 也 用 大 括号 标记 ， 所 以 {} 表示 一 个 空 的 字 
典 ， 而 不 是 一 个 空 集 。 


2to3 脚本 默认 不 会 修复 set() 字面 值 。 为 了 开启 这 个 功能 ， 在 命令 行 调 用 2tos 的 时 
候 指 定 -f set literal 参数 。 


Notes Before After 
set([1, 2, 3]) [TUE 
Set(( 3 ily A ESI] 
set([i for i in a_sequence]) (i for i in a sequence) 


全 局 函数 buffer() ( 显 式 的 ) 


用 C 实 现 的 Python 对 象 可 以 导出 一 个 “缓冲 区 接口 "buffer interface)， 它 允许 其 他 的 Python 代码 
直接 读 写 一 块 内 存 。( 这 听 起 来 很 强大 ， 它 也 同样 可 怕 。) 在 Python 3 里 ， buffer() 被 重新 命 
名 为 memoryview() o (实际 的 修改 更 加 复 条 ， 但 是 你 几乎 可 以 忽略 掉 这 些 不 同 之 处 。 ) 


2to3 脚本 默认 不 会 修复 buffer() 函数 。 为 了 开启 这 个 功能 ， 在 命令 行 调用 2tos 的 时 
候 指定 -f buffer 参数 。 


Notes Before After 


x = buffer(y) x = memoryview(y) 


过 号 周围 的 空格 ( 显 式 的 ) 


尽管 Python 对 用 于 缩 进 和 凸 出 (indenting and outdenting) 的 空格 要 求 很 严格 ， 但 是 对 于 空格 在 
其 他 方面 的 使 用 Python 还 是 很 自由 的 。 在 列表 ， 元 组 ， 集 合 和 字典 里 ， 空 格 可 以 出 现在 逗号 
的 前 面 或 者 后 面 ， 这 不 会 有 什么 坏 影 响 。 但 是 ，Python 代 码 风 格 指导 手册 上 指出 ， 喜 号 前 不 
能 有 空格 ， 豆 号 后 应 该 包含 一 个 空格 。 尽 管 这 纯粹 只 是 一 个 美观 上 的 考量 (代码 仍然 可 以 正常 
工作 ， 在 Python 2 和 Python 3 里 都 可 以 )， 但 是 2to3 脚本 可 以 依据 手册 上 的 标准 为 你 完成 这 个 
修复 。 


2to3 脚本 默认 不 会 修复 逗号 周围 的 空格 。 为 了 开启 这 个 功能 ， 在 命 命 行 调用 2tos 的 
时 候 指 定 -f wscomma 参数 。 





Notes Before After 
a ,b a, b 


{a :b} {a: b} 


惯例 Common idioms)( 显 式 的 ) 


在 Python 社区 里 建立 起 来 了 许多 惯例 。 有 一 些 比如 while 1: loop， 它 可 以 追溯 到 Python 1。 
(Python 直到 Python 2.3 才 有 真正 意义 上 的 布尔 类 型 ， 所 以 开发 者 以 前 使 用 1 和 o 蔡 代 。) 当 
代 的 Python 程 序 员 应 该 锻炼 他 们 的 大 脑 以 使 用 这 些 惯例 的 现代 版 。 


= atos 脚本 默认 不 会 为 这 些 惯例 做 修复 。 为 了 开启 这 个 功能 ， 在 命令 行 调用 2tos 的 时 
候 指定 -f idioms 参数 。 


Notes Before After 
[1] [2] 
type(x) -- T isinstance(x, T) 
type(x) is T isinstance(x, T) 
[3] [4] 
[1]: 
while 1: 
do stuff() 
[2]: 


while True: 
do stuff() 


[3]: 


a list - list(a sequence) 
a list.sort() 
do stuff(a list) 


[4]: 


a list - sorted(a sequence) 
do stuff(a list) 


Chapter B 特殊 方法 名 称 


" My specialty is being right when other people are wrong. " — George Bernard Shaw 


深入 


在 本 书 其它 几 人 处， 我们 已 经 见识 过 一 些 特 殊 方法 即 在 使 用 某 些 语法 时 Python 所 调用 
的 “神奇 方法。 使 用 特殊 方法 ， 类 用 起 来 如 同 序列 、 字 典 、 画 数 、 失 代 器 ， 或 甚至 像 个 数字 | 
本 附录 为 我 们 已 经 见 过 特殊 方法 提供 了 参考 ， 并 对 一 些 更 加 深奥 的 特殊 方法 进行 了 简要 介 


绍 。 





基础 知识 


如 果 便 阅读 《类 的 简介 》 一 章 ， 你 可 能 已 经 见识 过 了 最 常见 的 特殊 方法 : init () 75 
法 。 盖 章 结束 时 ， 我 写 的 类 多 数 需要 进行 一 些 初始 化 工作 。 还 有 一 些 其 它 的 基础 特殊 方法 对 
调试 自 定 义 类 也 特别 有 用 。 


Python 实际 调用 


序 目的 


5 
© 


初始 化 一 个 实例 
字符 串 的 “ 官 


所 编写 代码 
Xe nee) 


x = MyClass() 


X. repr () 


2 方 表 现形 式 
© ir QE str(x) x. str () 
字 节 数组 的 “ 非 
@ iSt bytes(x) x. bytes () 
© xeu format(x, format spec ) x. format ( format spec ) 
1. 对 init () 方法 的 调用 发 生 在 实例 被 创建 之 后 。 如 果 要 控制 实际 创建 进程 ， 请 使 用 
EUN 方法 。 
2， 按 照 约 定 ， repr () 方法 所 返回 的 字符 串 为 合法 的 Python 表达 式 。 
3. 在 调用 print(x) 的 同时 也 调用 了 _ str. () 方法 。 
4. 由 于 bytes. 类 型 的 引入 而 从 Python 3 开始 出 现 。 
5， 按 照 约 定 ， format_spec 应 当 遵循 迷你 语言 格式 规范 【Format Specification Mini- 


Language] o Python 标准 类 库 中 的 decimal.py 提供 了 自己 的 _ format () 方法 。 


行为 方式 与 迭代 器 类 似 的 类 
在 《和 迭代 器 》 一 章 中 ， 我 们 已 经 学 习 了 如 何 使 用 — iter () 和 _ next_() 方法 从 需 开 始 
创建 迭代 器 。 


序号 目的 所 编写 代码 Python 实际 调用 
@ 通 历 某 个 序列 iter(seq) BE eO 

Q 从 迭代 器 中 获取 下 一 个 值 next (seq) seg. next () 

3 按 道 序 创建 一 个 迭代 器 reversed(seq) seq. reversed () 


无 论 何 时 创建 迭代 器 都 将 调用 — iter 0 方法 。 这 是 用 初始 值 对 迭代 器 进行 初始 化 的 
绝 佳之 处 。 

2 无论 何 时 从 和 迭代 器 中 获取 下 一 个 值 都 将 调用 next oO 方法 。 

_ reversed_() 方法 并 不 常用 。 它 以 一 个 现 有 序列 为 参数 ， 并 将 该 序列 中 所 有 元 素 从 尾 
到 头 以 逆序 排列 生成 一 个 新 的 迭代 器 。 


正如 我 们 在 《迭代 器 》 一 章 中 看 到 的 ， ror 循环 也 可 用 作 和 迭代 器 。 在 下 面 的 循环 中 : 


for x in seg: 
print(x) 


Python 3 将 会 调用 seq. iter () 以 创建 一 个 迭代 器 ， 然 后 对 迭代 器 调用 next 0 方法 
以 获取 x 的 每 个 值 。 当 net () 方法 引发 stopIteration 例外 时 ， for 循环 正常 结 


束 。 


计算 属性 


: 目的 所 编写 代码 Python 实际 调用 
获取 一 个 
(D abs x.my. property x. getattribute ( 'my property' ) 
B3) 
获取 一 个 
© ， 计算 属性 x.my. property x. getattr ( 'my property' ) 
(84) 
3 tm x.my property - value x. Ssetattr ( 'my. property' , value ) 
e em del x.my property x. delattr ( 'my property' ) 
列 出 所 有 
© RIEM} dir (x) ERE) 
法 
4. 


1. 如 果 某 个 类 定义 了 _getattribute () 方法 ， 在 每 次 引用 属性 或 方法 名 称 时 Python 都 
调用 它 (特殊 方法 名 称 除外 ， 因 为 那样 将 会 导致 讨 捧 的 无 限 循环 ) 。 

2， 如 果 某 个 类 定义 了 — getattr. () 方法 ，Python 将 只 在 正常 的 位 置 查询 属性 时 才 会 调用 
它 。 如 果实 例 x 定义 了 属性 color,  x.color 将 不 会 调用 
X,  getattr ('color') ; 而 只 会 返回 X.color 已 定义 好 的 值 。 

3. 无 论 何 时 给 属性 赋值 ， 都 会 调用 _setattr () 方法 。 

4. 无 论 何 时 删除 一 个 属性 ， 都 将 调用 _delattr_() 方法 。 

5 如果 定义 了 _getattr () 或 getattribute () 方法 ， _dir () 方法 将 非常 有 
用 。 通 常 ， 调 用 droo 将 只 显示 正常 的 属性 和 方法 。 如 果 _getattr() 方法 动态 处 
理 color BIE, dir(x) 将 不 会 将 color 列 为 可 用 属性 。 可 通过 覆 六 dir () 75 
法 允许 将 color 列 为 可 用 属性 ， 对 于 想 使 用 你 的 类 但 却 不 想 深入 其 内 部 的 人 来 说 ， 该 方 
法 非常 有 益 。 


_getattr () 和 | getattribute () 方法 的 区 别 非常 细微 ， 但 非常 重要 。 可 以 用 两 个 例子 
来 解释 一 下 : 


class Dynamo: 
def _ getattr (self, key): 


return 'PapayaWhip' 
else: 


>>> dyn = Dynamo() 


'PapayaWhip' 
>>> dyn.color = 'LemonChiffon' 


'LemonChiffon' 


1， 属 性 名 称 以 字符 串 的 形式 传人  getattr() 方法 。 如 果 名 称 为 'color! ， 该 方法 返回 
一 个 值 。 〈 在 此 情况 下 ， 它 只 是 一 个 硬 编码 的 字符 串 ， 但 可 以 正常 地 进行 某 些 计算 并 返 
回 结果 。) 

2， 如 果 属 性 名 称 未 知 ， getattr() 方法 必须 引发 一 个 _ AttributeError 例外 ， 否 则 在 
访问 未 定义 属性 时 ， 代 码 将 只 会 默默 地 失败 。 〈 从 技术 角度 而 言 ， 如 果 方 法 不 引发 例外 
或 显 式 地 返回 一 个 值 ， 它 将 返回 None Python 的 空 值 。 这 意味 着 所 有 未 显 式 定义 
的 属性 将 为 none ， 几 乎 可 以 肯定 这 不 是 你 想 看 到 的 。 ) 

3. dyn 实例 没有 名 为 color 的 属性 ， 因 此 在 提供 计算 值 时 将 调用 _getattr () o 

4. 在 显 式 地 设置 dyn.color 之 后 ， 将 不 再 为 提供 dyn.color 的 值 而 调用 _getattr__() 
方法 ， 因 为 dyn.color 已 在 该 实例 中 定义 。 





另 一 方面 ， getattribute () 方法 是 绝对 的 、 无 条 件 的 。 


class SuperDynamo: 
def _ getattribute (self, key): 
if key -- 'color': 
return 'PapayaWhip' 
else: 
raise AttributeError 


>>> dyn = SuperDynamo() 


'PapayaWhip' 
>>> dyn.color = 'LemonChiffon' 


'PapayaWhip' 


1. 在 获取 dyn.color 的 值 时 将 调用 — getattribute () 方法 。 

2， 即 便 已 经 显 式 地 设置 dyn.color ， 在 获取 dyn.coior 的 值 时 , (RES FH 
. getattribute () 方法 。 如 果 存 在 . getattribute () 方法 ， 将 在 每 次 查找 属性 和 方 
法 时 无 条 件 地 调用 它 ， 哪 怕 在 创建 实例 之 后 已 经 显 式 地 设置 了 属性 。 


如 果 定 义 了 类 的 _ getattribute () 方法 ， 你 可 能 还 想 定 义 一 个 setattr () 方 
法 ， 并 在 两 者 之 间 进 行 协同 ， 以 跟踪 属性 的 值 。 否 则 ， 在 创建 实例 之 后 所 设置 的 值 将 会 
消失 在 黑洞 中 。 
































必须 特别 小 心 . getattribute () 方法 ， 因 为 Python 在 查找 类 的 方法 名 称 时 也 将 对 其 进行 
调用 。 


class Rastan: 
def _ getattribute (self, key): 


def swim(self): 
pass 


>>> hero = Rastan() 
Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 


File "«stdin»", line 3, in  getattribute _ 
AttributeError 


1. 该 类 定义 了 一 个 总 是 引发 ”AttributeError 例外 的 _ getattribute () 方法 。 没 有 属性 
或 方法 的 查询 会 成 功 。 

2. 调用 hero.swim() 时 ， Python 将 在 Rastan 类 中 查找 swim() 方法 。 该 查找 将 执行 整 
个 . getattribute () 方法 ， 因为 所 有 的 属性 和 方法 查找 都 通过 . getattribute () 
方法 。 在 此 例 中 ， . getattribute () 方法 引发 AttributeError 例外 ， 因此 该 方法 查 
找 过 程 将 会 失败 ， 而 方法 调用 也 将 失败 。 


行为 方式 与 鲍 数 类 似 的 类 
可 以 让 类 的 实例 变 得 可 调用 一 一 就 像 芳 数 可 以 调用 一 样 一 一 通过 定义 _call () 方法 。 


序号 目的 所 编写 代码 Python 实际 调用 


像 调用 函数 一 样 “调用 ”一 个 实例 my instance() my instance. call () 


zipfile 模块 通过 该 方式 定义 了 一 个 可 以 使 用 给 定 密码 解密 经 加 密 zip 文件 的 类 。 该 zip 解 

密 算法 需要 在 解密 的 过 程 中 保存 状态 。 通 过 将 解密 器 定义 为 类 ， 使 我 们 得 以 在 decryptor 类 
的 单个 实例 中 对 该 状态 进行 维护 。 状 态 在 _init O 方法 中 进行 初始 化 ， 如 果 文 件 经 加 密 
则 进行 更 新 。 但 由 于 该 类 像 画 数 一 样 “可 调用 ”， 因 此 可 以 将 实例 作为 mapo 画 数 的 第 一 个 参 
数 传 入 ， 代 码 如 下 : 


# excerpt from zipfile.py 
class ZipDecrypter: 


def _ init (self, pwd): 


self.key1 = 591751049 
self.key2 - 878082192 
for p in pwd: 

self. UpdateKeys(p) 


assert isinstance(c, int) 

k = self.key2 | 2 

C-c^ (((K * (k^1)) >> 8) & 255) 
self. UpdateKeys(c) 

return c 


bytes - zef file.read(12) 


1. _zippecryptor 类 维护 了 以 三 个 旋转 密 钥 形式 出 现 的 状态 ， 该 状态 稍 后 将 在 
_UpdateKeys() 方法 中 更 新 (此 你 未 展示 ) o 

2， 该 类 定义 了 一 个 _call () 方法 ， 使 得 该 类 可 像 函 数 一 样 调用 。 在 此 例 
FB, call () 对 zip 文件 的 单个 字 节 进行 解密 ， 然 后 基于 经 解密 的 字 节 对 旋转 密码 进 
行 更 新 。 

3. zd 是 _zippecryptor 类 的 一 个 实例 。 变 量 pwd 被 传人 init () 方法 ， 并 在 其 中 
被 存储 和 用 于 首次 旋转 密码 更 新 。 

4. 给 出 zip 文件 的 头 12 个 字 节 ， 将 这 些 字 节 映射 给 zd 进行 解密 ， 实 际 上 这 将 导致 调用 
call () 方法 12 次 ， 也 就 是 更 新 内 部 状态 并 返回 结果 字 节 12 次 。 


行为 方式 与 序列 类 似 的 类 


如 果 类 作为 一 系列 值 的 容器 出 现 一 一 也 就 是 说 如 果 对 某 个 类 来 说 ， 是 否 “ 包 含 " 某 值 是 件 有 意义 








的 事情 一 一 那么 它 也 许 应 该 定义 下 面 的 特殊 方法 已 ， 让 它 的 行为 方式 与 序 列 类 似 。 
序号 目的 所 编写 代码 Python 实际 调用 
序列 的 长 度 len(seq) sed. len () 
了 解 某 序列 是 否 包含 特定 的 值 x in seq seq. contains ( X) 


cgi 模块 在 其 FieldStorage 类 中 使 用 了 这 些 方法 ， 该 类 用 于 表示 提交 给 动态 网 页 的 所 有 表 
单字 段 或 查询 参数 。 


# A script which responds to http://example.com/search?q-cgi 
import cgi 
fs = cgi.FieldStorage() 


do search() 


# An excerpt from cgi.py that explains how that works 
class FieldStorage: 


if self.list is None: 
raise TypeError('not indexable') 


-— 


一 旦 创建 了 cgi.Fieldstorage 类 的 实例 ， 就 可 以 使 用 “in ”运算 符 来 检查 查询 字符 串 中 
是 否 包 含 了 某 个 特定 参数 。 

2. 而 | contains () 方法 是 令 该 魔法 生效 的 主角 。 

. 如果 代码 为 if 'q' in fs, Python 将 在 fs 对 象 中 查找 . contains () 方法 ， 而 该 
方法 在 cgi.py 中 已 经 定义 。 'q' 的 值 被 当 作 key 参数 传人 contains 0 方法 。 

同样 的 Fieldstorage 类 还 支持 返回 其 长 度 ， 因 此 可 以 编写 代码 len fs) 而 其 将 调用 
Fieldstorage 的 len () 方法 ， 并 返回 其 识别 的 查询 参数 个 数 。 

5. self.keys() 方法 检查 self.list is None 是 否 为 真 值 ， 因 此 —1en 方法 无 需 重 复 该 


错误 检查 。 


CD 


A 


行为 方式 与 字典 类 似 的 类 


在 前 一 节 的 基础 上 稍 作 拓展 ， 就 不 仅 可 以 对 “in ”运算 符 和 len) 豆 数 进行 响应 ， 还 可 像 全 
功能 字典 一 样 根 据 键 来 返回 值 。 


: 目的 所 编写 代码 Python 实际 调用 
通过 键 来 获取 值 x[key] x.. getitem ( key ) 
通过 键 来 设置 值 x[key] = value x. setitem ( key , value ) 
删除 一 个 键 值 对 del x[key] x. delitem ( key ) 
X E Hg 
AT RR BEBE AAA x[nonexistent key] x. missing ( nonexistent key ) 


认 值 


cgi 模块 的 Fieldstorage 类 同样 定义 了 这 些 特殊 方法 ， 也 就 是 说 可 以 像 下 面 这 样 编码 : 


4 A script which responds to http://example.com/search?q-cgi 
import cgi 

fs = cgi.FieldStorage() 

if 'gq' in fs: 


4 An excerpt from cgi.py that shows how it works 
class FieldStorage: 


if self.list is None: 
raise TypeError('not indexable') 


found = [] 
for item in self.list: 
if item.name -- key: found.append(item) 


if not found: 

raise KeyError(key) 
if len(found) -- 1: 

return found[0] 
else: 

return found 


1. fs 对 象 是 cgi.Fieldstorage 类 的 一 个 实例 ， 但 仍然 可 以 像 fs['q'] 这 样 估算 表达 
式 。 

2. fs['q'] 将 key 参数 设置 为 'q' 来 调用 _getitem () 方法 。 然 后 它 将 在 其 内 部 维 
护 的 查询 参数 列表 ( self.list ) 中 查找 一 个 .name 与 给 定 键 相 符 的 字典 项 。 


行为 方式 与 数值 类 似 的 类 


使 用 适当 的 特殊 方法 ， 可 以 将 类 的 行为 方式 定义 为 与 数字 相仿 。 也 就 是 说 ， 可 以 进行 相 加 、 
相 减 ， 并 进行 其 它 数学 运算 。 这 就 是 分 数 的 实现 方式 一 Fraction 类 实现 了 这 些 特殊 方 
法 ， 然 后 就 可 以 进行 下 列 运算 了 : 

>>> from fractions import Fraction 

>>> x = Fraction(1, 3) 


222 x / 3 
Fraction(1, 9) 


以 下 是 实现 “类 数字 "类 的 完整 特殊 方法 清 


序 目的 所 编写 代码 Python 实际 调用 
加 法 Now y x. add (y) 
减法 Ry x. sub ( y ) 
乘法 EE x. mul ( y) 
除法 x /y x. truediv ( y ) 
地 板 除 x // y x. floordiv ( y) 
取 模 (BUR) x % y x. mod (y ) 

地 板 除 & Hus divmod(x, y) x. divmod ( y) 
Xx x **y x. pow ( y) 
左 位 移 x &lt;&lt; y XII REND 
右 位 移 x &gt;&gt; y xs tO ya) 
按 位 and x & y x. and (y) 
按 位 xor x ^y x. xor (y) 
按 位 or x &#124; y my 


如 果 x 是 某 个 实现 了 所 有 这 些 方 法 的 类 的 实例 ， 那 么 万 事 大 吉 。 但 如 果 未 实现 其 中 之 一 呢 ? 
或 者 更 糟 ， 如 果实 现 了 ， 但 却 无 法 义理 某 几 类 参数 会 怎么 样 ?例如 : 


>>> from fractions import Fraction 
>>> x = Fraction(1, 3) 

>> 1/ x 

Fraction(3, 1) 


这 并 不 是 传人 一 个 分 数 并 将 其 除 以 一 个 整数 (如 前 例 那样 ) 的 情况 。 前 例 中 的 情况 非常 直 
观 : xy/3 调用 x. truediv_ (3), 而 Fraction 的 . truediv () 方法 处 理 所 有 的 数学 
运算 。 但 整数 并 不 “知道 "如 何 对 分 数 进行 数学 计算 。 因 此 本 例 该 如 何 运 作 呢 ? 


和 反映 操作 相关 的 还 有 第 二 部 分 算数 特殊 方法 。 给 定 一 个 二 元 算术 运算 (例如 : 
x /y ) ， 有 两 种 方法 来 实现 它 : 


1. 告诉 x 将 自己 除 以 y ， 或 者 

2. 告诉 y 去 除 x 

之 前 提 到 的 特殊 方法 集合 采用 了 第 一 种 方式 : 对 于 给 定 x / y ， 它 们 为 x 提供 了 一 种 途径 
来 表述 “我 知道 如 何 将 自己 除 以 y 。 "下 面 的 特殊 方法 集合 采用 了 第 二 种 方法 : 它们 向 y 提 
供 了 一 种 途径 来 表述 “我 知道 如 何 成 为 分 母 ， 并 用 自己 去 除 x." 


目的 
加 法 
减法 
乘法 
除法 
地 板 除 
取 模 (RR) 
地 板 除 & 取 模 
7e 3 
左 位 移 
右 位 移 
按 位 and 
按 位 xor 


按 位 or 


所 编写 代码 


XY 
x // y 
X 96 y 
divmod(x, y) 
x xx y 
A ee ede N 
x &gt;&gt; y 
X &y 
XAY 


x &#124; y 


Python 实际 调用 

y—radd-—( X.) 

y. rsub (X) 
rem mu X) 

Yy. rtrúuediv (X) 
Vo noord v (EXI) 
y. rmod (X) 

y.  rdivmod ( X) 
y. rpow (X9) 
ERSTES Ino tee (NO) 
VESNA CANET) 
Ve nand SEXI) 
VeRO XD) 


V dre NS ) 


但 是 等 一 下 ! 还 有 更 多 特殊 方法 ! 如 果 在 进行 " 原 地 ”操作 ， 如 : x /= 3 ， 还 可 定义 更 多 的 特 


殊 方 法 。 


序号 


目的 
原 地 加 法 
原 地 减法 
原 地 乘法 
原 地 除法 
原 地 地 板 除 法 
原 地 取 模 
TE Hh ate 3e 
原 地 左 位 移 
原 地 右 位 移 
原 地 按 位 and 
原 地 按 位 xor 
原 地 按 位 or 


Nhantar D &bht E 3t g Fr 
Chapter B 街灯 方法 名 标 


所 编写 代码 


X t2 y 


x &lt;&lt;- y 
x &gt;&gt;- y 
X &- y 
X A= y 


X &#124;= y 


Python 实际 调用 


yg devo (Ve) 
Sea MS uva 
xam 


Xene oV yE) 


X ifloordiv ( y ) 


x 


elmo (VD 


x 


.—.ipow ( y ) 
NOSTER 
REUS OW) 
x. iand (y) 
zo DOr M) 


Sea Noe A 


注意 : 多 数 情况 下 ， 并 不 需要 原 地 操作 方法 。 如 果 未 对 特定 运算 定义 “就 地 ”方法 ，Python 将 
会 试 着 使 用 (普通 ) 方法 。 例 如 ， 为 执行 表达 式 x /= y ，Python 将 会 : 


1. 试 着 调用 x._itruediv_( y ) 。 如 果 该 方法 已 经 定义 ， 并 返回 了 NotImplemented 之 外 
的 值 ， 那 已 经 大 功 告 成 了 。 

2. 试图 调用 x._truediv_( y ) 。 如 果 该 方法 已 定义 并 返回 一 个 NotImplemented 之 外 的 
值 ， x 的 旧 值 将 被 丢弃 ， 并 将 所 返回 的 值 蔡 代 它 ， 就 像 是 进行 了 x = x / y 运算 。 

3. 试图 调用 y._rtruediv_( X ) 。 如 果 该 方法 已 定义 并 返回 了 一 个 NotImplemented 之 外 


的 值 ， 


x 的 旧 值 将 被 丢弃 ， 并 用 所 返回 值 进行 替换 。 


因此 如 果 想 对 原 地 运算 进行 优化 ， 仅 需 像 _ itruediv () 方法 一 样 定义 " 原 地 ”方法 。 否 则 ， 
基本 上 Python 将 会 重新 生成 原 地 运算 公式 ， 以 使 用 常规 的 运算 及 变量 赋值 。 


还 有 一 些 “一 元 "数学 运算 ， 可 以 对 “类 -数字 ”对象 自己 执行 。 


序号 


PEP 357 


目的 
负数 
正 数 
绝对 值 
取 反 
复数 
整数 转换 
浮 点 数 
四 舍 五 入 至 最 近 的 整数 
四 舍 五 入 至 最 近 的 n 位 小 数 


&gt;= x 的 最 小 整数 
&lt;= x 的 最 大 整数 
对 x 朝向 0 取 整 

作为 列表 索引 的 数字 


可 比较 的 类 


我 将 此 内 容 从 前 一 节 中 拿 出 来 使 其 单独 成 节 ， 是 因为 "比较 "操作 并 不 局 限于 数字 。 许 多 数据 类 
型 都 可 以 进行 比较 一 字符 串 、 列 表 ， 基 至 字典 。 如 果 要 创建 自己 的 关 ， 且 对 象 之 间 的 比较 


意义 ， 可 以 使 用 下 面 的 特殊 方法 来 实现 比较 。 


所 编写 代码 


complex(x) 
int(x) 
float(x) 
round(x) 
round(x, n) 
math.ceil(x) 
math.floor(x) 
math.trunc(x) 


a list[x] 


Python 实际 调用 


x. neg_ () 
XOSE) 
X abs () 


x.——aAnvert  () 


X. complex  () 


xml od tee) 
xc IO UI Ce (o) 
x. round (n) 
Xa celm (全 

X LOOR (0) 
X EEC E) 


a list[x. index ()] 


序号 目的 所 编写 代码 Python 实际 调用 
相等 say x.—eq-( yl) 
不 相等 cd x.—ne—( y ) 
小 于 x &lt; y xD yL 
小 于 或 等 于 x &lt;= y >a Vy 
大 于 x &gt; y le M) 
大 于 或 等 于 x &gt;- y x. ge (y) 
布尔 上 上 下 文 环 境 中 的 真 什 i SERS 


富 如 果 定 义 了 ait 0 方法 但 没有 定义 gt () Z5, Python 将 通过 经 交换 的 算 子 
调用 it 0 方法 。 然 而 ，Python 并 不 会 组 合 方法 。 例 如 ， 如 果 定 义 了 it () Æ 
法 和 _eq() 0 方法 ， 并 试图 测试 是 否 x &lt;= y ，Python 不 会 按 顺 序 调用 1t 0 
和 _eq() 。 它 将 只 调用 1e 0 方法 。 


可 序列 化 的 类 


Python 支持 任意 对 象 的 序列 化 和 反 序列 化 。 (多 数 Python 参考 资料 称 该 过 程 为 “pickling” 和 
"unpickling") 。 该 技术 对 与 籽 状 态 保 存 为 文件 并 在 稍 后 恢复 它 非常 有 意义 。 所 有 的 Ue 
类 型 均 已 支持 pickling 。 如 果 创 建 了 自 定 义 类 ， 且 希望 它 能 够 pickle， 阅 读 pickle 协议 了 解 
下 列 特殊 方法 何 时 以 及 如 何 被 调用 。 
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: 目的 所 编写 代码 Python Fr. 3É 


2 copy.copy(x) Xx. . copy () 


自 定 义 对 
象 的 深度 copy .deepcopy(x) X.. deepcopy. () 


复制 


在 

pickling 

之 前 获取 pickle.dump(x, file ) x. . getstate () 
对 象 的 状 


A 


AS 


序列 化 某 


ickle.dump(x, file x. reduce () 
对 象 p p( ) 


序列 化 某 
对 象 (新 
pickling 
协议 ) 
控制 
unpickling 
B 过 程 中 对 x = pickle.load( file ) x. getnewargs () 
象 的 创建 
JI 


在 
unpickling 
y 之 后 还 原 x = pickle.load( file ) xc Usetstate () 
对 象 的 状 
E 


AS 


pickle.dump(x, file , protocol version ) x. reduce ex ( protoct 


e 要 重建 序列 化 对 象 ，Python 需要 创建 一 个 和 被 序列 化 的 对 象 看 起 来 一 样 的 新 对 象 ， 然 后 
设置 新 对 象 的 所 有 属性 。  getnewargs () 方法 控制 新 对 象 的 创建 过 程 ， 而 
. setstate () 方法 控制 属性 值 的 还 原 方式 。 


可 在 with 语 块 中 使 用 的 类 


with 语 块 定义 了 运行 时 刻 上 下 文 环 境 ; 在 执行 with 语句 时 将 “进入 ”该 上 下 文 环境 ， 而 执 
行 该 语 块 中 的 最 后 一 条 语句 将 “退出 ”该 上 下 文 环境 。 


序号 目的 所 编写 代码 Python 实际 调用 
在 进入 with 语 块 时 进行 一 些 特 别 操作 with x: x.'entep c 
在 退出 with 语 块 时 进行 一 些 特 别 操作 with x: xo exit- i() 


以 下 是 with file" 习惯 用 法 的 运作 方式 : 


# excerpt from io.py: 
def  checkClosed(self, msg-zNone): 
'''Internal: raise an ValueError if file is closed 


if self.closed: 
raise ValueError('I/O operation on closed file.' 
if msg is None else msg) 


def | enter (self): 
'''Context management protocol. Returns self.''' 


def | exit (self, *args): 
'''Context management protocol. Calls close()''' 


1. 该 文件 对 象 同 时 定义 了 一 个 | enter () 和 一 个 | exit () 方法 。 该 | enter. () 75 
法 检查 文件 是 否 处 于 打开 状态 ; 如 果 没 有 ， checkclosed() 方法 引发 一 个 例外 。 

2. | enter () 方法 将 始终 返回 self 一 一 这 是 with 语 块 将 用 于 调用 属性 和 方法 的 对 象 

3. 在 with 语 块 结 束 后 ， 文 件 对 象 将 自动 关闭 。 人 怎么 做 到 的 ?在 _exit_() 方法 中 调用 


了 self.close() . 


该 edt 0 方法 将 总 是 被 调用 ， 哪 怕 是 在 with 语 块 中 引发 了 例外 。 实 际 上 ， 如 
果 引 发 了 例外 ， 该 例外 信息 将 会 被 传递 给 _exit_() 方法 。 查 阅 With 状态 上 下 文 环 境 
管理 器 了 解 更 多 细节 。 


要 了 解 关于 上 下 文 管理 器 的 更 多 内 容 ， 请 查阅 《自动 关闭 文件 》 和 《 重 定向 标准 输出 》。 


真正 神奇 的 东西 


如 果 知 道 自己 在 干什么 ， 你 几乎 可 以 完全 控制 关 是 如 何 比较 的 、 属 性 如 何 定义 ， 以 及 类 的 子 
类 是 何 种 类 型 。 


目的 所 编写 代码 Python 实际 调用 


dio qd 


类 构 


造 器 


* 类 析 
构 器 


只 定 
义 特 
定 集 
合 的 
某 些 
属性 
自 定 
义 散 hash(x) Soc Uns an (C) 
列 值 


获取 


x = MyClass() x.— new () 


del x Xe ded (人 


XuNeSIlOt SS 


某 个 Xeolonr type(x)- dict [color q:—get-(x, type(»x)) 


x.color - 'PapayaWhip' type(x). -dict- ['color'].--set- (x, 'PapayaWwt 


删除 


ES del x.color type (x) o dict M color dels») 


属性 


控制 
某 个 
对 象 
EA 
是 该 
对 象 
的 实 
例 
your 
class 


控制 
某 个 
否 是 issubclass(C, MyClass) MyClass.  subclasscheck (C) 
该 类 
的 子 
控制 
某 个 


该 抽 
象 基 
类 的 
Tk 


isinstance(x, MyClass) MyClass.  instancecheck (x) 


issubclass(C, MyABC) MyABC.  subclasshook (C) 


* 确切 掌握 Python 何 时 调用 _del_() 特别 方法 是 件 难以 置信 的 复 杀 事情 。 要 想 完全 理解 
它 ， 必 须 清楚 Python 如 何在 内 存 中 跟踪 对 象 。 以 下 有 一 篇 好 文章 介绍 Python 垃圾 收集 和 类 
析 构 器 。 还 可 以 阅读 《 弱 引 用 》、《 weakref 模块 》， 还 可 以 将 ( gc 模块 》 当 作 补充 阅 
读 材 料 。 


深入 阅读 
本 附录 中 提 到 的 模块 : 


e zipfile 模块 


Dive Into Python3 


e cgi 模块 

* collections 模块 

e math [数学 ] 模块 

e pickle 模块 

e copy 模块 

。 abc (“抽象 基 类 ”) 模块 


其 它 启 发 式 阅读 : 


e. 迷你 语言 格式 规范 

e Python 数据 模型 

e 内 建 类 型 

e PEP 357: 使 任何 对 象 可 以 使 用 切片 
e PEP 3119: 抽象 基 类 简介 
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Chapter C 接 下 来 阅读 什么 ? 


" Go forth on your path, as it exists only through your walking. " — St. Augustine of 
Hippo (attributed) 


要 阅读 的 对 象 


鉴于 一 些 主题 有 免费 的 教程 ， 因 此 我 决定 不 在 本 书 中 加 以 阅 述 。 
修饰 器 : 


e 函数 修饰 器 作者 : Ariel Ortiz 

。 关于 本 数 修饰 器 的 更 多 讨论 作者 : Ariel Ortiz 

e 可 爱 的 Python : 修饰 器 使 魔法 更 轻松 作者 : David Mertz 
。 官方 Python 文档 中 的 函数 定义 


属性 : 


e Python 内 建 属性 作者 : Adam Gomaa 
e Getters/Setters/Fuxors 作者 : Ryan Tomayko 
e 官方 Python 文档 中 的 property 函数 


描述 符 : 


e HAIFAI How-To 指南 作者 : Raymond Hettinger 

e 可 爱 的 Python: Python 的 简洁 与 累 资 ， 第 二 部 分 作者 : David Mertz 
e Python 描述 符 作者 : Mark Summerfield 

e Python 官方 文档 中 的 调用 描述 符 


线程 & 多 进程 : 


© threading 模块 

e ”线程 一 管理 并 发 线程 

* multiprocessing 模块 

e 多 进程 一 像 管理 线程 那样 管理 进程 

e Python 线程 和 全 局 解释 器 锁 作者 : Jesse Noller 
e Python GIL 揭 密 (视频 ) 作者 : David Beazley 


元 类 
e Python 中 的 元 类 编程 作者 : David Mertz 和 Michele Simionato 


e Python 中 的 元 类 编程 ， 第 二 部 分 作者 : David Mertz 和 Michele Simionato 
e Python 中 的 元 类 编程 ， 第 三 部 分 作者 : David Mertz 和 Michele Simionato 


此 外 ，Doug Hellman 之 本 周 Python 模块 是 对 Python 标准 类 库 模块 的 极 好 指南 


到 哪里 找 与 Python 3- 兼 容 的 代码 


由 于 Python 3 相对 较 新 ， 其 非常 缺乏 兼容 关 库 。 以 下 地 方 可 用 于 查找 在 Python 3 之 下 能 够 
正常 运作 的 代码 : 


e Python Ze 835| : Python 3 安装 包 清 单 

e Python 食谱 : 标记 了 “python3” 的 内 容 清 a 

e 以 Google 为 宿主 的 项 目 : 标记 为 “python3” 的 项 目 清单 

e SourceForge: 符合 “Python 3” 的 项 目 清单 

e GitHub: 符合 “python3” 的 项 目 清单 (以 及 符合 “python 3” 的 项 目 清单 ) 

e BitBucket: 符合 “python3” 的 项 目 清单 (以 及 符合 "python 3” 的 项 目 清单 ) 
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